当前位置：首页 > news >正文

三维堆叠与浸没冷却：E/Z级超算硬件设计的核心挑战与工程实践

news 2026/5/27 14:12:30

1. 项目概述从二维到三维超算硬件设计的范式转移在超级计算机追求E级百亿亿次乃至Z级十万亿亿次浮点运算能力的道路上我们这些硬件工程师和热管理研究者正面临着一个根本性的矛盾性能的指数级增长与物理空间、功耗预算的线性约束之间的激烈对抗。传统上我们通过制程微缩遵循摩尔定律和增加芯片数量来提升算力但这直接导致了系统体积和功耗的爆炸式增长。DARPA曾为E级超算设定了“500个标准机柜、20兆瓦功耗”的宏伟目标但基于当时技术趋势的预测却给出了近500兆瓦的惊人数字这几乎是一个小型核电站的出力水平。显然沿着老路走不通了。问题的核心在于信号传输的“飞行时间”。计算单元之间的通信延迟根本上取决于互连线的物理长度。在一个包含海量计算单元的系统里将所有通信线的长度控制在可接受的范围内是一项极其艰巨的布线挑战。这迫使我们将电路元件从传统的二维平面布局转向三维空间堆叠。这不仅仅是把芯片像搭积木一样摞起来那么简单它是一场涉及封装、互连、供电尤其是热管理的全面革新。三维堆叠通过垂直方向集成大幅缩短了芯片间关键数据路径的长度从而降低了通信延迟和功耗是实现高计算密度和计算效率的必由之路。然而高密度堆叠带来的最直接、最严峻的挑战就是散热。芯片的功率密度并未因堆叠而降低反而因为更紧凑的布局使得单位体积内的发热量急剧上升。传统的风冷技术早已触及天花板即便是针对单芯片的强化水冷在复杂的多层堆叠结构中也难以施展冷却液分配网络的复杂性和压降会成为新的瓶颈。这时浸没冷却技术重新回到了我们的视野。将整个计算节点甚至机柜浸入具有高绝缘性的介电冷却液如FC77、氟化液等中利用液体的高比热容和相变潜热直接带走热量理论上可以实现极高热流密度的散热。但针对未来超算的极端紧凑设计冷却流道将变得极其狭长其长宽比可能高达数千这完全不同于当前芯片级微流道冷却的研究范畴。我们面临的将不再是处理局部热点的高热流问题而是如何在超长微流道中维持稳定流动、确保全局均匀散热的“微流体可靠性”问题。本文将基于一篇经典的学术论文中提出的“卡堆模型”结合我多年在电子设备热管理一线的实战经验深入拆解未来超算硬件设计特别是三维堆叠与浸没冷却结合时所面临的核心挑战。我们将不仅讨论理论模型和计算更会聚焦于工程实现中的陷阱、材料选择的考量以及技术路线的权衡。无论你是体系结构设计师、热管理工程师还是对超算前沿技术感兴趣的开发者相信都能从中看到一幅清晰且充满挑战的技术演进图景。2. 核心挑战解析密度、效率与散热的“不可能三角”要理解未来超算硬件设计的挑战我们必须先建立一个统一的评估框架。论文中引入的“计算密度-计算效率”图是一个极其精妙的工具。计算密度衡量的是单位体积例如每升能提供的算力操作数/秒它直接反映了系统的紧凑程度计算效率衡量的是每焦耳能量能完成多少操作它反映了系统的能效水平。理想的技术演进方向是朝着图的右上角移动即同时获得更高的密度和效率。2.1 模型基石卡堆模型的抽象与价值论文提出的“卡堆模型”是一个高度抽象但极具洞察力的系统级模型。它将复杂的超算硬件简化为一个由多层“电路卡”堆叠而成的长方体。每张卡代表了一个承载着海量同构计算单元的抽象平面卡与卡之间留有供介电冷却液流动的缝隙。信号传输分为卡内xy平面和卡间z方向沿堆叠方向两种。这个模型的强大之处在于它用相对简洁的数学关系如基于Rent定律的平均线长公式、分区策略、功耗与体积方程、流体传热方程将系统吞吐量、功耗、体积、以及内部细节如信号线尺寸、电源线尺寸、冷却流道宽度关联了起来。通过调整嵌入模型中的少数几个经验参数如Rent指数、活动因子、线材缩放因子可以让模型计算出的“状态点”即特定的计算密度和计算效率组合与历史上几代著名超算如CRAY-1、地球模拟器、京的实际数据吻合从而在计算密度-效率图上描绘出一条技术演进轨迹。实操心得这种系统级建模方法在实际研发中非常有用。在项目早期架构阶段我们不需要纠结于具体是哪种处理器、用什么封装而是先用一个抽象模型快速评估不同设计选择如堆叠层数、芯片尺寸、冷却方式对整体性能、功耗和体积的影响。这能帮助我们在投入大量工程资源前就排除掉许多明显不可行的方案。2.2 挑战一互连与功耗的紧耦合在三维堆叠系统中互连不再是“配角”而是与功耗强耦合的核心约束。模型清晰地揭示了这一点信号线电容充电功耗这是芯片功耗的主要来源之一。驱动一条互连线对电容充电所需的能量与线长和电压的平方成正比。三维堆叠虽然缩短了全局互连长度但极高的元件密度意味着单位面积内的互连线总长度可能不降反增且线宽微缩导致电阻急剧上升铜的尺寸效应进一步加剧了驱动功耗和RC延迟。电源配送网络随着计算单元密度飙升单位面积所需的电流密度剧增。电源和地线网络需要将巨大的电流从板卡边缘输送到每一个计算单元这会产生显著的IR压降和焦耳热。论文附录中详细推导了考虑电压降的电源网络模型指出这部分焦耳热可能使总功耗增加近20%因子f_JH ≈ 1.18。在E/Z级超算中设计低电阻、高载流能力的片上供电网络将是一个巨大挑战。分区策略的权衡如何将海量计算单元Ns划分到多张卡M上这本质上是成本与性能的权衡。划分得太细M很大卡间通信z方向延迟和功耗会增加划分得太粗单卡上元件数Nc很大卡内布线会变得极其复杂和昂贵。模型采用了一个基于成本估算的经验公式M ∝ Ns^0.4这提醒我们最优分区不仅取决于性能还受制于制造成本和良率。2.3 挑战二热管理的范式转变论文最反直觉、也最具启发性的结论之一是关于未来超算的散热需求。与当前芯片级冷却研究聚焦于应对数百W/cm²的高热流密度不同模型预测在追求极致计算密度和效率的E/Z级超算中每张卡的热负载和表面热流密度可能非常低。这听起来像是好消息实则隐藏着更棘手的挑战超长微流道内的流动稳定性为了压缩体积冷却流道宽度df被挤压到微米级别模型预测E级机约为240微米Z级机仅为16微米而流道长度卡的长度L假设为1米或0.1米却保持不变。这导致流道的长宽比L/df高达4000至6000。在这种极端尺度的微流道中流动极易受制造公差、污染物、气泡等因素影响而失稳或堵塞。传统的、针对短微流道长宽比~200的强化传热研究如扰流柱、微肋片可能不再适用研究的重点必须转向微流体动力学确保在长达数米的路径上冷却液能稳定、均匀地流动。低热流下的传热特性由于元件活动因子γ_A的降低并非所有电路时刻全速运行以及功耗预算的严格限制单卡热负载Q_c可能仅数十瓦表面热流q_c远低于100 W/cm²。在这种情况下对流换热系数本身可能不是瓶颈冷却液的温升ΔT也可能很小模型计算仅0.2K到0.6K。但这并不意味着可以高枕无忧。一旦因任何原因导致某条流道内流量下降局部温升会迅速加剧且由于流道极长故障难以被快速感知和定位。因此系统的鲁棒性、可靠性和故障预测成为比峰值散热能力更关键的问题。冷却工质的革新需求当系统向Z级规模演进时即使允许体积和功耗按比例增长“功绩约束”场景模型计算显示冷却液温升也会飙升到不可接受的水平。除非引入具有更高“表观热容”的冷却工质。这指向了相变浸没冷却利用汽化潜热或甚至采用发生吸热化学反应的流体。这些新型冷却剂的工程化应用特别是在与微电子电路长期兼容性、系统密封性、维护性等方面存在大量未知领域。2.4 挑战三材料科学的极限推进模型中的“缩放因子”S_l是一个关键参数它定义了信号线截面积A_l与其平均长度l_c̄的平方之间的比例关系A_l S_l * l_c̄²。为了在压缩体积的同时不增加信号延迟τ_c必须保持τ_c ρ * ε * l_c̄² / A_l ρ * ε / S_l 为常数。这意味着当为了给冷却流道腾出空间而不得不减小信号线截面积即减小S_l时我们必须同步地、按比例地降低信号线的电阻率ρ。对于基于铜互连的传统技术线宽微缩至纳米级别时电阻率会因表面散射和晶界散射效应而急剧上升这与我们的需求背道而驰。因此论文明确指出实现E级尤其是Z级计算需要革命性的互连材料。候选者包括碳纳米管理论上具有极高的载流能力和极低的电阻率且尺度在纳米级是替代铜的潜在选择。但如何实现大规模、高密度、低缺陷的CNT束互连并与现有CMOS工艺集成是巨大的挑战。石墨烯纳米带同样具有优异的电学性能但面临类似的制备和集成难题。光互连在板卡边缘用光链路z-line进行卡间通信可以避免长距离电互连的损耗和延迟问题。但模型中也考虑了光电转换带来的时间开销τ_zd这需要超低功耗、高速的光调制器和探测器。3. 从模型到现实工程实现的关键考量与步骤理论模型指出了方向但真正的挑战在于工程落地。下面我们结合模型参数和实际工程经验拆解构建这样一个三维堆叠浸没冷却超算节点可能涉及的关键步骤和决策点。3.1 系统级参数定义与目标分解首先我们需要明确顶层指标。假设我们的目标是构建一个符合DARPA愿景的E级超算节点原型目标算力定义该节点的浮点运算能力例如0.1 ExaFLOPS。功耗预算根据整体能效目标如20 MW/ExaFLOP反推节点功耗。体积约束根据目标计算密度和算力确定节点的最大物理尺寸。冷却条件确定采用的介电冷却液类型如FC-770、Novec系列、进口温度、可用泵功决定系统压降Δp。基于这些顶层输入我们可以利用卡堆模型进行反向迭代设计估算系统规模根据目标算力STP和预设的互连活动因子A_C、延迟时间τ_z利用公式STP (A_C / (2τ_z)) * M * N_C^p结合分区策略M ∝ N_S^0.4和N_S M * N_C可以迭代求解出所需的总电路元件数N_S、卡数M和每卡元件数N_C。确定互连参数根据N_C和Rent定律估算卡内平均线长和卡间平均线长。结合目标工作频率决定τ_c和选定的介电常数ε_r利用τ_c ρ * ε * l_c̄² / A_l关系可以推算出对信号线电阻率ρ和截面积A_l的要求。这直接指导我们对互连材料和工艺的选择。初步热流分析根据功耗预算和计算出的卡数M得到单卡热负载Q_c Q_sys / M。结合初步设定的卡尺寸L得到表面热流q_c Q_c / L²。此时q_c的值可以验证是否如模型预测处于一个“较低”的水平例如远低于100 W/cm²。3.2 冷却子系统设计与微流道优化这是最具挑战性的环节。目标是设计出能够满足散热需求、且压降在泵送能力范围内的微流道系统。流道几何参数确定流道宽度这是核心变量。它由系统总厚度卡厚度流道厚度和体积约束决定。模型公式dp d_sp d_ss d_s0 d_f给出了卡间距的组成电源线所需厚度、信号线所需厚度、其他固体部分厚度、冷却流道宽度。我们需要在满足布线空间d_ss, d_sp的前提下最大化d_f。流道长度通常等于卡的长度L假设为单向流动。对于1米长的卡若d_f为240微米则长宽比高达4167。流道高度通常等于卡的宽度假设流道覆盖整个卡面。但也可以考虑多通道并行设计以降低压降。流体与传热计算流速与流态判断根据给定的系统压降Δp如20 kPa、流道尺寸、冷却液物性密度ρ_f、动力粘度ν_f使用平行板通道的公式计算流速V_f。首先计算雷诺数Re (V_f * (2d_f)) / ν_f判断流态层流Re2500湍流Re2500然后选用对应的摩擦因子公式反算V_f。同时需检查V_f是否超过防止腐蚀或空化的最大允许流速如2 m/s。温升与壁温计算根据单卡热负载Q_c、冷却液流量ṁ ρ_f * L * d_f * V_f和比热容c_pf计算冷却液从进口到出口的温升ΔT Q_c / (ṁ * c_pf)。再根据对流换热系数公式计算卡表面温度。对于层流h 4.115 * k_f / d_f对于湍流使用Dittus-Boelter等公式。最终评估热点温度是否在芯片结温安全范围内。工程化挑战与对策流动均匀性如何确保堆叠中每一层卡的每一个流道流量均匀需要在进口处设计精密的分配歧管这可能引入额外的体积和压降。堵塞与可靠性超长微流道对颗粒污染物极度敏感。需要极高洁净度的冷却液和过滤系统甚至考虑在流道入口设置微滤网但会增加压降。制造公差d_f的微小变化例如±10微米会对流阻和流量分布产生巨大影响。这要求极高的制造和装配精度。系统集成冷却液循环系统泵、换热器、过滤器、储液罐如何与计算节点集成泄漏检测与防护如何设计这些都是复杂的工程问题。注意事项在早期设计时切勿只关注峰值散热能力。对于这种长宽比极大的微流道系统必须进行瞬态热模拟和流固耦合分析评估在局部流量波动、泵故障或局部热源变化等非理想情况下的系统行为。冗余设计和在线健康监测系统至关重要。3.3 电源配送网络设计随着计算密度提升电源网络的设计压力不亚于信号网络和散热系统。电流密度估算根据单卡功耗Q_c和供电电压V_D估算总电流I_total ≈ Q_c / V_D。假设电流从卡边缘的多个触点注入需要设计足够数量和截面积的电源/地引脚。片上供电网络电流从卡边缘触点注入后需要通过分布在卡面上的电源网格分配到每一个计算单元。如附录模型所示这会导致沿供电路径的IR压降。目标是将最远端单元的电压降控制在允许范围内例如10% V_D。设计要点低电阻材料考虑使用电阻率比铜更低的材料如银、或复合金属制作电源网格但需考虑成本与工艺。多层供电网络采用专门的多层厚金属层来分布电源和地与信号层隔离以减少阻抗。去耦电容在芯片上广泛分布去耦电容以应对瞬态电流需求稳定局部电压。模型辅助利用论文附录中的公式或更先进的仿真工具提前评估不同布线策略下的电压降分布和焦耳热优化电源网格的拓扑结构和线宽。3.4 测试与验证策略在制造出全尺寸原型机之前必须通过分层级的测试来降低风险。材料与工艺测试新型互连材料在晶圆级测试碳纳米管或石墨烯互连的电阻、电迁移可靠性、与硅衬底/介电层的粘附性等。冷却液兼容性将各种材料芯片钝化层、封装材料、密封圈、焊料等浸泡在候选介电冷却液中进行长期老化实验评估其膨胀、溶解、性能退化情况。子系统测试单卡热测试制造包含简化热源如电阻加热器和温度传感器的测试卡将其浸入冷却液中测试不同流量下的散热能力和温度均匀性。微流道流体测试使用透明材料如玻璃、PMMA制造放大或等比例的流道模型通过粒子图像测速技术观察流动状态验证流量分配均匀性。堆叠互连测试制造小规模如4-8层的硅中介层或硅通孔堆叠测试载体验证高速信号传输的完整性、串扰和功耗。集成原型测试构建一个最小可行性的堆叠计算节点例如4-16张卡集成完整的供电、冷却和控制系统运行基准测试程序同时监测功耗、温度和性能与模型预测进行对比校准。4. 未来展望超越E级迈向Z级的征途与陷阱模型分析清晰地表明从E级到Z级算力再提升1000倍我们将面临非线性的、甚至是颠覆性的挑战。4.1 Z级超算的“材料墙”与“热墙”互连材料墙如图9和图10所示若保持E级超算的互连缩放因子S_lZ级超算的计算密度和效率将急剧恶化或者冷却液温升达到无法接受的程度。为了将状态点维持在演进曲线上S_l需要再降低一个数量级例如从4e-10降至8e-11。这意味着信号线截面积需要更极端的微缩从而对线材电阻率提出近乎苛刻的要求。碳基纳米材料碳纳米管、石墨烯可能是唯一的希望但其宏量制备、可控排列、低接触电阻等关键技术距离大规模工程应用仍有很长距离。冷却工质墙即使互连问题得到解决Z级超算在“功绩约束”场景下即允许体积和功耗成比例增长模型计算显示冷却液温升ΔT仍会飙升。这是因为在体积增长的同时散热表面积并未同步增长流道宽度d_f被压缩而总热负荷却大幅增加。此时单纯依靠单相液体的显热吸收能力已接近极限。我们必须转向利用潜热或化学反应热的高效冷却工质相变浸没冷却让冷却液在芯片表面沸腾利用汽化潜热带走大量热量。这能极大提升散热能力但带来了两相流不稳定性、汽泡管理、系统压力控制、工质补充等复杂问题。吸热反应流体使用在特定温度下会发生吸热化学反应的流体其“表观热容”远高于物理热容。但这涉及复杂的流体化学、反应可控性、产物分离与再生等挑战目前仍处于非常早期的研究阶段。4.2 架构与封装的协同创新硬件设计不能孤立进行必须与体系结构协同优化。近内存计算/存算一体通过将内存与计算单元在三维空间内紧密集成甚至是堆叠在一起可以极大减少数据搬运的能耗和延迟这符合三维堆叠缩短互连长度的核心思想。这可能会改变计算单元的活动模式γ_A从而影响热负载分布。异构计算与任务调度未来的超算节点很可能集成多种计算单元CPU、GPU、AI加速器、FPGA。通过智能的任务调度和功耗管理可以将高功耗任务分散到不同的空间和时间域避免产生集中的热点从而缓解瞬态散热压力。这要求硬件提供更细粒度的功耗状态控制和温度传感。光互连的深入集成模型中的z方向互连假设为光链路。未来光互连可能不仅用于卡间甚至可能深入到堆叠内部或芯片内部从根本上解决电互连的带宽和功耗瓶颈。但这需要解决硅光器件与CMOS工艺的集成、功耗、散热等一系列问题。4.3 对当前研究方向的启示论文的结论对当前的热管理研究社区提出了一个重要的反思我们是否过于聚焦于“高热点热流密度”的挑战对于未来超算微流道内的流体动力学稳定性、长距离流动的可靠性、以及系统级的鲁棒性设计可能比追求极限的对流换热系数更为关键。研究重点可能需要转向超长微流道内流动失稳的机理与抑制方法。针对低热流、大长宽比流道的强化传热新机制虽然热流低但若能进一步降低流阻和泵功也能提升系统能效。适用于介电流体的、高可靠性的微泵与流量控制技术。基于传感器网络和AI的智能热管理与故障预测系统。从我个人的工程实践来看通向E级和Z级超算的道路绝非坦途。它不是一个简单的“等工艺进步”或“堆更多芯片”就能解决的问题而是一场需要材料科学家、微电子工程师、热物理学家、流体力学专家和计算机体系结构师紧密协作的跨学科攻坚战。卡堆模型为我们描绘了一幅清晰的挑战地图而真正的突破将来自于我们在这些交叉领域持续不懈的深耕和那些看似异想天开的创新。

查看全文

http://www.rkmt.cn/news/1403536.html