当集群规模从数千卡跃升至十万卡级别,每一次扩容都不再是简单的硬件堆叠,而是一场涉及节点开通、网络重构、作业迁移的精密工程。Anthropic 作为当前租用 xAI Colossus 1 全部算力(超过 30 万千瓦、22 万 + GPU)的 AI 实验室,其首席计算官 Tom Brown 所带领的基础设施团队,正面临着万卡级集群扩容中的核心挑战:如何在不停机的前提下完成节点自动化开通、网络拓扑重构与训练作业的无缝迁移。
节点自动化开通:从裸机到可调度单元的流水线
超大规模 GPU 集群的节点开通绝非传统数据中心的装机流程。以 Anthropic 公开的基础设施招聘需求为参照,其 Cluster Infra 团队需要覆盖计算集群的完整生命周期 —— 从裸机安装、固件配置到身份分配与自动化恢复。在万卡级扩容场景中,这一流程必须实现完全的流水线化。
开通流水线的关键阶段包括:
-
硬件发现与清点:新到货的 GPU 节点通过带外管理(BMC)自动注册到资产管理系统,完成序列号、MAC 地址、GPU UUID 等唯一标识的采集。此阶段需验证每块 GPU 的显存健康状态与 NVLink 连通性。
-
固件与驱动标准化:针对 NVIDIA Blackwell 或同代 GPU,需统一刷写 VBIOS、GPU 驱动、CUDA 运行时及容器运行时版本。Anthropic 的基础设施实践表明,这一环节必须版本锁定,避免驱动差异导致的训练异常。
-
网络身份分配:在 Leaf-Spine 架构下,每个节点需分配机架内位置标识(Rack/Unit)、Leaf 交换机端口映射、以及 Spine 层的路由宣告。自动化脚本需同步更新 DHCP、DNS 与 Consul/ZooKeeper 服务注册。
-
健康检查与准入:节点加入集群前需通过压力测试 —— 包括 GPU 显存带宽测试、NCCL 全归约测试、以及 IB/RoCE 网络连通性验证。只有通过全部检查的节点才会被标记为
Ready状态,进入 Kubernetes Slurm 或自研调度器的资源池。
可落地的参数建议:单节点开通时间控制在 45 分钟以内,批量开通的并发度建议不超过机架总容量的 20%,以避免对现有训练作业的 IO 冲击。
网络拓扑重构:Leaf-Spine 架构下的无损变更
万卡级集群的网络拓扑通常采用 Leaf-Spine 架构 —— 每 32-64 个节点构成一个机架,通过 Leaf 交换机上行至 Spine 层,形成无阻塞的全二分带宽。当集群扩容时,网络拓扑重构往往涉及新增 Spine 交换机、重新分配 Leaf-Spine 连接,或从单平面扩展至多平面架构。
拓扑重构的核心挑战在于避免训练作业的网络中断。 分布式训练对网络延迟极度敏感,任何路由收敛或链路抖动都可能导致 AllReduce 超时。Anthropic 在此类场景下的工程实践可归纳为以下策略:
-
渐进式路由宣告:新增 Spine 交换机时,采用 BGP 的 Graceful Restart 机制,确保控制平面重启期间数据平面继续转发。Leaf 交换机逐步将部分上行链路切换至新 Spine,实现流量渐进迁移。
-
ECMP 权重调整:在 Spine 层启用等价多路径(ECMP)时,通过调整路由权重实现新旧链路的流量比例控制。初始阶段可将新 Spine 的权重设为 5%,验证无丢包后逐步提升至 50%。
-
训练作业的拓扑感知调度:调度器需感知网络拓扑的变更窗口,避免在重构期间将跨机架通信密集的作业调度至受影响链路。可通过 Kubernetes 的 Topology Manager 或 Slurm 的
--switches参数实现机架亲和性约束。
关键监控指标:拓扑重构期间需实时监控 Leaf 交换机的上行链路利用率(阈值 85%)、PFC(Priority Flow Control)触发次数(阈值 10 次 / 分钟)、以及训练作业的 NCCL 超时率(阈值 0.1%)。
作业无缝迁移:训练任务的状态保持与弹性调度
当节点开通与网络重构完成后,训练作业需要从旧资源池迁移至新扩容区域。对于动辄运行数周的大规模语言模型训练任务,"重启训练" 意味着数百万美元的算力浪费。因此,作业迁移必须实现状态保持与断点续训。
作业迁移的工程实现要点:
-
检查点策略优化:采用高频异步检查点(每 15-30 分钟),将模型状态、优化器状态、随机数种子持久化至分布式存储(如 CephFS 或 Lustre)。检查点文件需采用分片存储,避免单点写入瓶颈。
-
热迁移与冷迁移的选择:对于支持弹性训练的框架(如 Megatron-LM 的
--elastic模式),可实现热迁移 —— 在作业运行过程中动态增减参与节点。对于不支持弹性扩展的作业,需协调训练暂停窗口,执行冷迁移。 -
网络拓扑亲和性保持:迁移后的作业应尽可能保持原有的机架亲和性,避免跨 Spine 通信导致的带宽竞争。调度器需维护作业的历史拓扑映射,在重新调度时优先匹配相似的机架分布。
-
回滚机制:迁移完成后需保留原集群的作业副本至少 2 小时,验证新集群的训练 loss 曲线与原集群一致后方可清理。若发现异常,可在分钟级内回滚至原资源池。
可落地的检查清单:
- 检查点文件完整性校验(MD5/SHA256)
- 新节点 NCCL 带宽测试(≥90% 理论峰值)
- 训练 loss 曲线对比(前 100 步差异 < 0.5%)
- 监控告警阈值同步至新集群的 Prometheus/Grafana
- 故障域隔离验证(单 Spine 故障不影响训练)
结语
万卡级集群的扩容自动化,本质上是将 "硬件变更" 转化为 "软件定义" 的过程。从节点开通的标准化流水线,到网络拓扑的渐进式重构,再到训练作业的状态保持迁移,每一环节都需要精确的参数控制与完善的监控体系。Anthropic 在 Colossus 规模集群上的运维实践表明,只有将基础设施的每个变更环节纳入自动化与可观测的范畴,才能在超大规模算力竞争中保持工程效率与训练稳定性的平衡。
参考资料
- Anthropic Staff Infrastructure Engineer 职位描述 - Welcome to the Jungle
- Yahoo Finance: Anthropic to rent all AI capacity at SpaceX's Colossus data center
- Constellation Research: Anthropic buys all of SpaceX's Colossus 1 data center capacity
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。