在 AI 集群规模化训练万亿参数模型时,互连网络已成为决定性能的核心瓶颈。Google TPU 的 ICI(Inter-Chip Interconnect)采用 3D Torus 拓扑,实现低成本高密度扩展,而 NVIDIA NVLink 依赖 CLOS 全互联架构,提供灵活性但成本高企。这种差异不仅源于硬件设计,还形成生态锁定:TPU 软硬件协同优化特定负载,NVLink 通用但昂贵。工程选型需权衡 MoE 模型的 all-to-all 通信与稠密矩阵运算的局部性,本文聚焦互连 scaling 瓶颈,给出可落地参数清单。
TPU ICI:3D Torus 的成本与密度优势
TPU ICI 是 Google 自定义互连,每芯片 4 条链路,双向 1.2 Tbps,支持 Ironwood(TPU v7)单 Pod 扩展至 9216 芯片,总算力达 42.5 ExaFLOPS。核心是 3D Torus 拓扑:每个节点沿 X/Y/Z 三维连接相邻节点,形成 4×4×4(64 芯片)立方体模块,再通过 OCS(Optical Circuit Switch)光交换动态重构跨模块连接。这种设计省去昂贵交换机,直接铜缆直连,网络成本不到 GPU 的五分之一。
证据显示,Torus 在稠密 Transformer 训练中高效:XLA 编译器预知拓扑,将高频通信算子置于邻近节点,延迟波动近零。Google v4 Pod 已达 4096 芯片,v5p 翻至 8960,Ironwood 进一步优化至 9216。相较 NVLink,ICI 无需光模块,功耗低、部署快,适合 Google Cloud 内部超大规模集群。
但瓶颈显露于 MoE(Mixture of Experts)模型:Token 路由至稀疏专家需 all-to-all 通信,Torus 直径 O(N),最大 20 跳,热点链路拥塞严重。TA-MoE 研究证实,Torus 下 MoE 训练时间随规模平方增长,相比 CLOS 需更多同步轮次。
NVLink:CLOS 全互联的灵活性与成本陷阱
NVIDIA NVLink 5 代双向 1.8 TB/s/芯片,NVL72 整合 72 Blackwell GPU 全互联,通过 NVSwitch 实现低跳数(1-2 跳)CLOS Fat-Tree。GB300 NVL72 域带宽 130 TB/s,支持扩展至 576 GPU,完美适配 MoE:专家并行下,CLOS 全 mesh 确保任意 GPU 直接高速交换,无需多跳。
MLPerf Inference v5.1 基准中,Blackwell 在 Llama 3.1 405B 下达 224 tokens/s,DeepSeek-R1 服务器端 2907 tokens/s,凸显 CLOS 对动态稀疏通信的优势。NVLink 还提供内存语义共享,GPU 间直接读写 HBM,简化并行训练。
scaling 瓶颈在于成本:NVSwitch + InfiniBand 交换机、光模块堆叠,单机架超 100 kW 功耗,扩展 10 万 GPU 需海量硬件。Tomahawk 6 虽达 102.4 Tbps/芯片,但摩尔红利渐弱,Torus 式直连在超大规模下更经济。
Scaling 瓶颈对比与生态锁定
| 维度 |
TPU ICI (3D Torus) |
NVLink (CLOS Full-Mesh) |
| 拓扑直径 |
O(N),MoE 多跳拥塞 |
低(1-2 跳),all-to-all 高效 |
| Pod 规模 |
9216 芯片(43 模块×64) |
72 GPU (NVL72),576 GPU 扩展 |
| 成本 |
< GPU 1/5,无交换机 |
高,交换机+光模块主导 |
| 适用负载 |
稠密 Transformer,XLA 优化局部性 |
MoE、混合负载,CUDA 通用生态 |
| 延迟波动 |
近零(直连) |
低,但交换引入抖动 |
Torus 锁入 Google 生态:XLA/JAX/Pathways 针对 ICI 融合算子、内存编排,外部复现难;NVLink/CUDA 开放但依赖 NVIDIA 栈,易迁移却成本锁死客户。
Google 长期优势:自产 TPU+ICI,控制全栈,Anthropic 等租户承诺百万 TPU。OpenAI/Anthropic 测试 TPU 推理,Apple 用 8000+ TPU 训基础模型,证明生态黏性。
工程选型清单与参数阈值
-
负载分类:
- 稠密模型(Transformer):优先 TPU ICI,若 Pod >5000 芯片,成本节省 60%。
- MoE/稀疏:NVLink,若 all-to-all >30% 流量,Torus 效率降 2-4x。
-
Scaling 参数:
| 参数 |
TPU ICI 阈值 |
NVLink 阈值 |
监控点 |
| 单 Pod 芯片数 |
≤9216 |
≤576 |
跳数 >10 触发重拓扑 |
| All-to-All BW |
1.2 Tbps/链路 |
1.8 TB/s/芯片 |
热点 >80% 利用率告警 |
| 总功耗/kW |
<100/机架 |
>100/机架 |
PUE <1.2,回滚至小 Pod |
| 成本/TFLOPS |
$0.5-1 |
$2-5 |
年 CapEx >20% 预算切换 |
-
部署清单:
- TPU 路径:Google Cloud Pod,启用 OCS 动态路由;XLA 融合 Top-K=2 专家;监控:ICI 抖动 <1μs,Pod 利用 >90%。
- NVLink 路径:DGX/GB200,SHARP 聚合;TensorRT-LLM MoE 优化;回滚:若拥塞 >20%,拆分至 InfiniBand Scale-Out。
- 混合风险:避免跨生态,TPU 锁定 JAX,NVLink CUDA;测试 A/B:1000 芯片 MoE,测 TTFT <50ms。
-
监控与回滚:
- Prometheus + Grafana:链路利用、跳数分布、尾延迟 P99 <5μs。
- 阈值超标:动态 OCS 重构(TPU)或 NVSwitch 负载均衡;极端:Scale-Out 至 RoCE,牺牲 20% 性能换弹性。
Google 通过 ICI 锁定实现“软硬一体极致”,在 AI 竞赛中稳居前列:成本低、规模大、专属优化。工程上,稠密负载选 TPU,灵活 MoE 选 NVLink,结合云服务评估 TCO。
资料来源:
- Google TPU v4/v7 部署 OCS 实现 9216 芯片 Pod,成本优势显著。[掘金:英伟达5万亿护城河,Google TPU能撼动吗?]
- CLOS 在 MoE 下加速 1.01x-4.77x。[雪球:谷歌TPU挑战英伟达GPU]