Hotdry.
systems

从5kW到40kW:GPU机架功率密度十年演进与基础设施挑战

解析2015至2025年GPU机架功率密度从5-10kW跃升至40kW+的演进历程,聚焦供电系统升级、热管理技术转型与AI算力集群基础设施的核心挑战。

在人工智能算力需求井喷的十年间,数据中心基础设施经历了前所未有的变革。GPU 机架功率密度从 2015 年普遍的 3 至 5 千瓦跃升至 2024 年后的 40 至 60 千瓦甚至上百千瓦,这一数字背后是整个数据中心供电、热管理与空间布局的系统性重构。本文旨在梳理这一演进脉络,并给出面向未来的工程化实践参数。

功率密度演进的十年轨迹

2015 年至 2017 年间,通用 GPU 服务器机架的功率密度普遍停留在 3 至 5 千瓦区间,这与当时以 CPU 为中心的传统数据中心设计理念相吻合。一个标准的 42U 机架通常只部署 1 至 2 台双路 GPU 服务器,整体功耗尚在传统机架式空调的散热能力之内。彼时的数据中心运营商习惯于将 5 千瓦视为 “高密度” 机架的门槛,超过此标准便需要额外的制冷改造。

进入 2018 年至 2019 年,随着深度学习训练需求的爆发,单机架功率密度开始向 5 至 10 千瓦挺进。这一时期,以 NVIDIA V100 为代表的高性能 GPU 开始大规模部署,单台 8-GPU 服务器的功耗即可达到 3 至 5 千瓦。然而,多数数据中心设施的设计上限仍停留在 10 千瓦以下,导致高密度 GPU 部署不得不分散至多个机架,从而增加了机房间的网络延迟与布线复杂度。业界开始意识到,传统数据中心的电力与制冷能力正在成为 AI 算力扩张的瓶颈。

2020 年至 2021 年成为关键的转折期。平均机架密度突破 10 千瓦,“高密度” 概念被重新定义至 15 至 20 千瓦范围。部分面向高性能计算的场景已出现 20 至 25 千瓦的设计。NVIDIA A100 GPU 的普及使得单台服务器功耗攀升至 6 至 10 千瓦,少数高端配置甚至更高。这一阶段,新建数据中心开始普遍采用高于以往标准的供电与制冷容量规划,但多数存量设施仍沿用旧有设计,机架功率密度的提升受到既有基础设施的制约。

2022 年至 2023 年,AI 大模型训练需求进一步催化了功率密度的跃升。面向大模型训练的 GPU 集群机架普遍 targeting 15 至 30 千瓦,单机架内可容纳 2 至 4 台高密度 GPU 服务器。此时,传统的风冷散热方案已接近其能力边界,液冷技术开始从实验阶段走向规模化部署。部分超大规模数据中心开始测试 30 至 40 千瓦乃至更高密度的机架设计,为后续的全面转型积累经验。

2024 年至 2025 年,GPU 机架功率密度进入 40 至 60 千瓦的新纪元。NVIDIA H100、B100 系列以及最新的 GB200 NVL72 等超级 GPU 系统的出现,将单台 8-GPU 服务器的功耗推高至 10 千瓦以上,一个满配高密度机架轻松突破 40 千瓦,部分面向顶级 AI 训练集群的设计甚至达到 70 至 100 千瓦。40 千瓦至 60 千瓦已成为新建 AI 数据中心的标准设计目标,而百千瓦级别的机架设计也已在头部云服务商中进入规划或部署阶段。

热管理:从风冷到液冷的技术跨越

功率密度的指数级增长对热管理提出了根本性挑战。传统数据中心依赖的精密空调配合下送风上回风模式,在机架功率密度低于 15 至 20 千瓦时尚能维持理想的制冷效率。然而,当单柜功率突破 30 至 40 千瓦后,空气的比热容与流速已无法有效携带如此巨量的热量,机柜内部出现局部过热点的概率急剧上升。行业实践表明,超过 40 千瓦每机架后,纯风冷方案的能效比将显著恶化,制冷系统自身的功耗可能占据整体 IT 负载的 30% 以上。

液冷技术因此成为必然选择。当前主流的液冷方案包括冷板式液冷、浸没式液冷以及改进型背门热交换器。冷板式液冷通过将冷却液直接导向 GPU、CPU 等高发热元件的金属盖板,可支持 50 至 100 千瓦乃至更高的单柜功率密度。浸没式液冷则将整个服务器浸入绝缘冷却液中,换热效率更高,但对服务器硬件的密封性与维护流程提出了全新要求。背门热交换器作为折中方案,在保留传统机架外形的前提下在机柜后部增加液冷换热单元,可在不大幅修改服务器设计的前提下实现 30 至 50 千瓦的散热能力。

对于新建 AI 算力集群,建议在规划阶段即确定液冷方案并预留相应的管道路由与分配单元。典型的液冷系统设计参数包括:冷却液进水温度建议控制在 20 至 25 摄氏度之间,回水温度不超过 45 摄氏度;冷却系统应配置 N+1 冗余,循环泵的扬程与流量需根据机架数量与管路长度精确计算;同时需考虑冷却液的泄露检测与应急排放措施,确保高密度液冷环境的安全可靠。

供电系统:从 208 伏到 400 伏的电压升级

功率密度的提升同样对电力配送系统提出了严峻考验。早期的 5 至 10 千瓦机架通常由单相或三相 208 伏电源供电,采用 30 安培或 60 安培的断路器即可满足需求。当机架功率提升至 25 至 40 千瓦时,传统的 208 伏供电方案将导致电缆电流过大、压降显著以及配电柜空间紧张等问题。因此,400 伏三相供电架构成为高密度数据中心的标准选择。400 伏三相配电可将相同功率下的电流减少约一半,降低电缆截面积要求,同时减少配电损耗。

对于 40 至 60 千瓦级别的机架,典型的供电配置为三相 400 伏、100 安培输入,可提供约 70 千瓦的供电能力冗余。若规划更高密度的百千瓦级机架,则需要采用 800 伏直流供电架构或更高电压的配电方案。NVIDIA 已在其下一代 AI 工厂设计中推广 800 伏高压直流架构,旨在进一步提升配电效率并降低基础设施成本。数据中心运营商在规划高密度 AI 集群时,应与电力部门协调确认可用容量,并预留足够的变压器与不间断电源配置。

供电系统的可靠性同样不容忽视。高密度 GPU 集群对电力中断极为敏感,一次意外的断电可能导致正在训练的大模型进度丢失或硬件损坏。建议采用 N+1 或 2N 冗余的 UPS 配置,并配备足够的后备时间以支撑发电机组的正常启动。同时,PDU(配电单元)应选择支持实时监控与远程管理的智能型产品,以便在负载接近阈值时及时预警。

工程实践参数与设计建议

综合上述分析,面向新建 AI 算力集群的基础设施设计可参考以下参数与原则:

在机架功率密度方面,2025 年后的新建项目建议以 40 至 60 千瓦作为标准设计密度,目标场景为大型语言模型训练或推理集群;百千瓦级别的超密度设计适用于顶级算力中心或液冷技术成熟的场景。

在热管理方案方面,40 千瓦以上机架应优先选择冷板式液冷或浸没式液冷;液冷系统的冷却液温差建议控制在 15 至 20 摄氏度之间,确保各服务器进液温度均匀;机房环境温度建议维持在 22 至 26 摄氏度,相对湿度控制在 40% 至 60%。

在电力配置方面,40 至 60 千瓦机架采用三相 400 伏、100 安培供电;配电柜与 PDU 应预留 20% 以上的功率裕量;UPS 配置建议采用 N+1 冗余,后备时间不少于 15 分钟。

在空间规划方面,高密度机架的间距应适当扩大以便于液冷管路维护,建议机柜间距不小于 1.2 米;楼板承重需根据机架重量与液冷系统充液量进行结构评估,典型高密度机架重量可达 800 至 1200 公斤。

结语

GPU 机架功率密度从 2015 年的 5 千瓦攀升至 2025 年的 40 千瓦以上,折射出 AI 算力需求对基础设施的深刻改造。热管理从风冷向液冷的转型、供电电压从 208 伏向 400 伏乃至 800 伏的升级,已不仅是技术选型的考量,更是决定 AI 算力集群能否实现规模化部署的关键因素。面对持续增长的算力需求,数据中心基础设施的规划者需要在功率密度、热效率、电力可靠性与建设成本之间寻求平衡,而对这一演进历程的深刻理解,正是做出合理决策的前提。

资料来源:本文数据与参数参考 Netrality《High-Density Colocation for AI and GPU Workloads》、Introl《High-Density Racks: 100kW+ Designs for AI Data Center Infrastructure》、Vertiv《How Data Center Infrastructure Will Evolve to Support AI and Accelerated Compute》、Goldman Sachs《Rising Power Density Disrupts AI Infrastructure》等行业报告与白皮书。

查看归档