首页 > 委员会新闻

如何为127kW高密度机柜降温?

来源:本站 发表时间: 2026年03月03日

    AI算力爆发式增长的当下,超大规模数据中心作为算力规模化部署的核心载体,其机柜算力密度正持续突破极限。传统风冷技术已难以满足高密AI算力的散热需求,逐渐退出该领域的主流散热舞台。本文将深入解析一份面向NVIDIAGB200NVL72系统的100MW超大规模AI数据中心参考蓝图,重点剖析其制冷架构设计。

    图片

    制冷架构概览:CDU为核心的液冷方案

    100MW蓝图专为超大规模AI工作负载设计,其核心计算单元是NVIDIAGB200NVL72机架系统——每个机架容纳72NVIDIAGPU36NVIDIAGraceCPU,通过NVLink互联,额定功率高达127kW

    图片

    针对如此高的功率密度,该架构摒弃了传统风冷为主的散热方案,采用芯片直连液冷(D2C)为核心、风冷为辅助的混合制冷策略,结合温水液冷标准与模块化设计,构建了从机柜到pod、从散热末端到冷量分配的全链路制冷架构。每个机架都配备专用的液冷系统,通过模块化设计的CDUCoolingDistributionUnit,冷却分配单元)来满足高密度AI系统的液体冷却热负荷。

    同时,作为面向UL市场(美国保险商实验室简称,是全球权威的产品安全测试和认证机构)的TierIII容错等级数据中心,其制冷系统需满足并行维护、故障隔离的核心要求,且要适配pod级模块化的整体部署逻辑——40个模块化pod支撑100MWIT负载,单pod32机柜(计算+网络)的IT负载达2256kW,其中液冷热负荷1632kW,风冷仅为624kW(辅助散热)。注:Pod为一组封闭冷(热)通道。

    核心设计:三级架构+温水液冷,实现散热与能效的平衡

    该制冷架构以机柜级专属散热-pod级冷量分配-园区级自然冷却利用为三级核心逻辑,全程遵循ASHRAEW32–W45温水液冷标准(供水温度32℃-45℃),核心目标是实现热负荷精准匹配、自然冷却最大化、制冷系统与算力/电力系统深度协同。

    图片 

    机柜级:芯片直连液冷为主,风冷辅助,127kW热负荷全覆盖

    NVIDIAGB200NVL72计算柜采用液冷“102kW+风冷25kW”的精准散热方案。直连芯片液冷冷板采用定制化设计 NVIDIA GB200 NVL72  GPUCPU 封装尺寸完全匹配,贴合紧密,热交换效率远高于传统风冷;机柜内的电源、网络设备等非核心部件则由风冷完成辅助散热。这种设计让散热精准匹配设备的发热特征,从末端杜绝了过冷却带来的能效损耗,同时为每台液冷机柜配备专属的遥测与控制网关,实时监测冷却液的温度、压力、流量,为后续的动态调节奠定基础。

    pod级:3CDU800模块化部署,支撑1632kW液冷热负荷

    pod配置3CDU800冷却分配单元,单台CDU800的额定冷量为544kW,三台总容量1632kW,与单pod的液冷热负荷完全匹配,实现冷量的精准分配。

    CDU800的设计是pod级制冷的最大亮点:采用双泵双路独立供电模式,每台泵配备单独的外部电源馈电,摒弃了传统单路供电CDU的单输入断路器风险。单台CDU800仅需1台泵运行,即可输出544kW的满额冷却容量,即使其中一台泵、控制系统或供电回路故障,另一台泵可无缝接替,制冷性能无任何衰减,实现了电力可用性与热冷却容量的解耦,无需额外配置N+1CDU冗余,既节省了设备成本,又提升了系统可靠性。

    同时,pod级制冷采用A/B双路冗余的冷量分配路径,冷却管路部署在柜列级/机房层,确保在单一路径维护或故障时,另一路径可持续供冷,满足TierIII并行维护的核心要求。

    园区级:ASHRAE温水液冷+自然冷却最大化,大幅降低PUE

    整个制冷架构全程遵循ASHRAEW32–W45温水液冷标准,这是实现能效优化的核心关键。32℃-45℃的温水液冷大幅降低了冷却液的降温需求,使得数据中心在温带地区全年大部分时间可实现无冷水机运行,完全依靠自然冷却(冷却塔或干冷器)完成冷却液的温度调节,大幅减少机械制冷的能耗,这也与即将发布的新版GB50174对于PUE的要求契合。

    关键技术亮点:容错、解耦、模块化,适配超大规模AI算力需求

    TierIII容错设计:无单一故障点,支持并行维护

    CDU800的双泵双电冗余,整个制冷架构的全链路均采用故障隔离设计:机柜级配备自动隔离阀门,一旦检测到泄漏,可毫秒级关闭该机柜的冷却液通路,不影响其他机柜;pod级的冷量分配采用双路冗余,单一路径故障可快速切换;园区级的自然冷却/机械制冷设备均采用N+1冗余,确保冷量制备的持续性。

    同时,所有制冷设备均支持在线维护,CDU800的泵组、阀门等核心部件采用热插拔设计,可在设备正常运行的前提下完成更换,真正实现维护不关机,故障不影响

    电力与制冷解耦:告别电力故障=制冷衰减

    该架构CDU800的一泵一电、独立供电设计,彻底实现了电力可用性与热冷却容量的解耦:

    pod级模块化设计:适配分阶段建设,支持算力阶梯式扩容

    100MW超大规模数据中心的建设遵循分阶段、阶梯式的算力扩容逻辑,其制冷系统的pod级模块化设计完美适配这一需求。同时,pod内的制冷管路与CDU部署预留了充足的扩容空间,若后续算力密度进一步提升(如升级至NVIDIAGB300NVL72,可在单pod内直接增加第四台CDU800,制冷容量从1632kW提升至2176kW,无需改造现有管路与控制逻辑,实现制冷系统与下一代算力集群的无缝兼容。

    结语

    AI算力持续爆发的未来,超大规模数据中心的制冷系统将不再是简单的散热工具,而是与算力、电力深度融合的核心子系统,其设计的科学性、可靠性、可扩展性,将直接决定数据中心的算力输出、运营成本与长期发展。这套制冷架构的落地,为行业提供了可复制、可推广的标杆方案,也为高密AI数据中心的制冷技术发展指明了清晰方向。

    文章作者:CIDC技术委员、联想 高级架构师 刘坤
    来源:云基础设施前沿工作室
上一篇: 报名开启|2026 数据中心柴发产业研讨
下一篇:暂无内容