万卡集群扩容自动化：节点开通、网络重构与作业迁移的工程实践

当集群规模从数千卡跃升至十万卡级别，每一次扩容都不再是简单的硬件堆叠，而是一场涉及节点开通、网络重构、作业迁移的精密工程。Anthropic 作为当前租用 xAI Colossus 1 全部算力（超过 30 万千瓦、22 万 + GPU）的 AI 实验室，其首席计算官 Tom Brown 所带领的基础设施团队，正面临着万卡级集群扩容中的核心挑战：如何在不停机的前提下完成节点自动化开通、网络拓扑重构与训练作业的无缝迁移。

节点自动化开通：从裸机到可调度单元的流水线

超大规模 GPU 集群的节点开通绝非传统数据中心的装机流程。以 Anthropic 公开的基础设施招聘需求为参照，其 Cluster Infra 团队需要覆盖计算集群的完整生命周期 —— 从裸机安装、固件配置到身份分配与自动化恢复。在万卡级扩容场景中，这一流程必须实现完全的流水线化。

开通流水线的关键阶段包括：

硬件发现与清点：新到货的 GPU 节点通过带外管理（BMC）自动注册到资产管理系统，完成序列号、MAC 地址、GPU UUID 等唯一标识的采集。此阶段需验证每块 GPU 的显存健康状态与 NVLink 连通性。
固件与驱动标准化：针对 NVIDIA Blackwell 或同代 GPU，需统一刷写 VBIOS、GPU 驱动、CUDA 运行时及容器运行时版本。Anthropic 的基础设施实践表明，这一环节必须版本锁定，避免驱动差异导致的训练异常。
网络身份分配：在 Leaf-Spine 架构下，每个节点需分配机架内位置标识（Rack/Unit）、Leaf 交换机端口映射、以及 Spine 层的路由宣告。自动化脚本需同步更新 DHCP、DNS 与 Consul/ZooKeeper 服务注册。
健康检查与准入：节点加入集群前需通过压力测试 —— 包括 GPU 显存带宽测试、NCCL 全归约测试、以及 IB/RoCE 网络连通性验证。只有通过全部检查的节点才会被标记为 Ready 状态，进入 Kubernetes Slurm 或自研调度器的资源池。

可落地的参数建议：单节点开通时间控制在 45 分钟以内，批量开通的并发度建议不超过机架总容量的 20%，以避免对现有训练作业的 IO 冲击。

网络拓扑重构：Leaf-Spine 架构下的无损变更

万卡级集群的网络拓扑通常采用 Leaf-Spine 架构 —— 每 32-64 个节点构成一个机架，通过 Leaf 交换机上行至 Spine 层，形成无阻塞的全二分带宽。当集群扩容时，网络拓扑重构往往涉及新增 Spine 交换机、重新分配 Leaf-Spine 连接，或从单平面扩展至多平面架构。

拓扑重构的核心挑战在于避免训练作业的网络中断。 分布式训练对网络延迟极度敏感，任何路由收敛或链路抖动都可能导致 AllReduce 超时。Anthropic 在此类场景下的工程实践可归纳为以下策略：

渐进式路由宣告：新增 Spine 交换机时，采用 BGP 的 Graceful Restart 机制，确保控制平面重启期间数据平面继续转发。Leaf 交换机逐步将部分上行链路切换至新 Spine，实现流量渐进迁移。
ECMP 权重调整：在 Spine 层启用等价多路径（ECMP）时，通过调整路由权重实现新旧链路的流量比例控制。初始阶段可将新 Spine 的权重设为 5%，验证无丢包后逐步提升至 50%。
训练作业的拓扑感知调度：调度器需感知网络拓扑的变更窗口，避免在重构期间将跨机架通信密集的作业调度至受影响链路。可通过 Kubernetes 的 Topology Manager 或 Slurm 的 --switches 参数实现机架亲和性约束。

关键监控指标：拓扑重构期间需实时监控 Leaf 交换机的上行链路利用率（阈值 85%）、PFC（Priority Flow Control）触发次数（阈值 10 次 / 分钟）、以及训练作业的 NCCL 超时率（阈值 0.1%）。

作业无缝迁移：训练任务的状态保持与弹性调度

当节点开通与网络重构完成后，训练作业需要从旧资源池迁移至新扩容区域。对于动辄运行数周的大规模语言模型训练任务，"重启训练" 意味着数百万美元的算力浪费。因此，作业迁移必须实现状态保持与断点续训。

作业迁移的工程实现要点：

检查点策略优化：采用高频异步检查点（每 15-30 分钟），将模型状态、优化器状态、随机数种子持久化至分布式存储（如 CephFS 或 Lustre）。检查点文件需采用分片存储，避免单点写入瓶颈。
热迁移与冷迁移的选择：对于支持弹性训练的框架（如 Megatron-LM 的 --elastic 模式），可实现热迁移 —— 在作业运行过程中动态增减参与节点。对于不支持弹性扩展的作业，需协调训练暂停窗口，执行冷迁移。
网络拓扑亲和性保持：迁移后的作业应尽可能保持原有的机架亲和性，避免跨 Spine 通信导致的带宽竞争。调度器需维护作业的历史拓扑映射，在重新调度时优先匹配相似的机架分布。
回滚机制：迁移完成后需保留原集群的作业副本至少 2 小时，验证新集群的训练 loss 曲线与原集群一致后方可清理。若发现异常，可在分钟级内回滚至原资源池。

可落地的检查清单：

检查点文件完整性校验（MD5/SHA256）
新节点 NCCL 带宽测试（≥90% 理论峰值）
训练 loss 曲线对比（前 100 步差异 < 0.5%）
监控告警阈值同步至新集群的 Prometheus/Grafana
故障域隔离验证（单 Spine 故障不影响训练）

结语

万卡级集群的扩容自动化，本质上是将 "硬件变更" 转化为 "软件定义" 的过程。从节点开通的标准化流水线，到网络拓扑的渐进式重构，再到训练作业的状态保持迁移，每一环节都需要精确的参数控制与完善的监控体系。Anthropic 在 Colossus 规模集群上的运维实践表明，只有将基础设施的每个变更环节纳入自动化与可观测的范畴，才能在超大规模算力竞争中保持工程效率与训练稳定性的平衡。

参考资料

Anthropic Staff Infrastructure Engineer 职位描述 - Welcome to the Jungle
Yahoo Finance: Anthropic to rent all AI capacity at SpaceX's Colossus data center
Constellation Research: Anthropic buys all of SpaceX's Colossus 1 data center capacity

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。