【LLM基础研究】核心六:AIInfra
AI Infra(人工智能基础设施)研究的核心,在于回答一个根本性问题:如何构建一个高效、可靠且可扩展的系统,来支撑AI算法从海量数据中训练,并进行快速、低成本的推理。
1. 计算:如何突破算力与通信的瓶颈?
当单个GPU无法容纳整个模型时,计算问题就变成了如何高效调度成千上万张卡协同工作的问题。
并行策略的融合优化:单一的数据并行已不敷使用。当前研究聚焦于多维混合并行,即综合运用数据并行、张量并行(将单层计算拆分到多卡)、流水线并行(将不同网络层分配到多卡)和专家并行(针对MoE模型)。挑战在于如何设计调度算法,最大限度地减少因同步和通信导致的GPU闲置(即"气泡")。
通信开销的掩盖优化:在混合专家模型(MoE)等架构中,跨节点通信成为主要瓶颈。一个代表性的优化是DeepSeek提出的DualPipe技术,它是一种双向流水线并行算法,通过在计算中巧妙地穿插通信任务,有效掩盖了通信延迟。
2. 存储与数据:如何喂饱饥饿的GPU?
GPU以惊人的速度处理数据,而数据加载和处理的任何延迟都会导致昂贵的GPU算力闲置,业界称之为"静默的空转"。
存算分离与性能平衡:为了应对EB级的数据洪流,现代架构正从传统的计算与存储紧耦合,转向存算分离。这使得计算和存储资源可以独立扩展。但代价是带来了网络延迟,因此需要在性能与灵活性之间取得平衡。
消除I/O瓶颈:如何构建高性能的数据管道,确保数据能"喂饱"GPU,是核心挑战。这涉及到并行文件系统、智能数据预取算法以及GPU直接访问存储(如GPUDirect Storage)等硬核技术,目的是将数据等待时间降到最低。
3. 网络:如何构建AI的"神经网络"?
在分布式训练中,成千上万个GPU需要像一台巨型计算机一样协同工作,这极大地依赖高速、低延迟的网络。
构建无损、高吞吐的网络:传统TCP/IP网络的开销过大,无法满足需求。因此,远程直接内存访问(RDMA)和InfiniBand等高速网络技术成为AI集群的标配。研究重点在于如何设计网络拓扑和路由策略,以适应AI训练中"全局通信"(All-to-All)等特定流量模式。
4. 推理:如何应对"深度思考"带来的挑战?
新一代的深度思考模型(如OpenAI o1, DeepSeek R1)通过长思维链进行推理,这对推理基础设施提出了全新挑战。
应对长序列的"内存爆炸":长输入和长输出会导致键值缓存(KV Cache)激增,严重消耗GPU显存。传统的"以计算换存储"的策略不再适用,业界开始探索 "以存储换算力"的新架构。
异构计算与任务调度:一个典型的创新是Mooncake架构,它将推理任务拆分为预填充(PreFill,计算密集型)和解码(Decoding,内存密集型)两个阶段,并分别调度到不同类型的计算资源上处理。同时,针对大模型的"投机式推理"等优化技术也旨在降低生成延迟。
- 系统工程:如何让AI可靠落地?
将模型部署到生产环境,需要一整套"护航"系统,确保其稳定、安全、可控。这是AI从"玩具"走向"工具"的关键一步。
高可用架构:大模型API并非100%可靠。企业级架构需具备多模型降级与熔断机制。当主模型服务超时或出错时,系统能自动无缝切换到备用模型或更简单的规则引擎,确保业务不中断。
安全合规护城河:在数据输入模型前,系统需自动进行数据脱敏(如抹除身份证号);在模型输出结果后,要进行内容安全审查,防止敏感信息泄露或违规内容生成。
可观测性:必须建立全链路监控体系,追踪一个请求从入口、模型推理到结果返回的完整路径,将模型的"黑盒"行为量化为TTFT(首字延迟)、QPS、GPU利用率等具体指标,以便进行运维和优化。
AI Infra的研究正从"支撑模型"转向"驾驭模型"。其核心议题是如何在规模、性能、成本和可靠性之间找到最优解。这是一个横跨计算、存储、网络、系统工程等多个领域的综合性挑战。
MRC: OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom,向业界发布了MRC(MultipathReliableConnection)协议——一种通过多路径并发传输、在微秒级绕过链路故障的新型网络传输协议,并已部署在其最大规模的超算集群中。不同的是,MRC在协议层发力,通过多路径并发传输对抗网络拥塞;ZCube则在架构层动刀,从拓扑设计上消除拥塞产生的根源。前者优化“交通规则”,后者重新规划了整张“路网”。
ZCube:智谱联合驭驯网络与清华大学,在GLM-5.1线上生产集群中完成了新一代网络架构ZCube的规模化落地。在线上GLM-5.1coding场景中,在保持GPU算力、软件栈与应用不变的前提下,ZCube节省了33%的交换机与光模块成本,同时将GPU平均推理吞吐量提升了15%,TTFTP99降低了40.6%。这组数字意味着什么?同样的硬件投入,智谱的GLM大模型现在每秒能多响应15%的API请求。对于服务上百万开发者的大模型API平台而言,这直接对应更高的并发上限、更低的排队延迟,以及在流量峰值下更稳定的用户体验。
