在 AI 训练中,Google TPU 的脉动阵列(systolic array)架构针对稠密矩阵乘法(dense matmul)表现出色,其核心在于数据“流动式”计算,极大减少内存访问开销,从而在 HBM 带宽利用和功耗控制上领先 NVIDIA GPU 的张量核(Tensor Cores)和流式多处理器(SMs)。这一设计特别适合 Transformer 模型的注意力机制和前馈层,这些层占训练计算的 90% 以上。相比之下,GPU 虽在动态形状工作负载中更灵活,但其通用架构带来的缓存和线程管理 overhead 导致带宽浪费和热密度升高,长周期训练易受电源与散热限制。
TPU 的脉动阵列由网格状处理单元组成,数据仅加载一次权重,即可通过相邻单元逐级传递输入,实现零额外内存读写。以 Ironwood(TPU v7)为例,其单芯片 BF16 算力达 4614 TFLOPS,配备 192GB HBM3e 内存,带宽高达 7370 GB/s,比前代 v5p 的 2765 GB/s 提升近 3 倍。这一带宽直接支撑大规模 matmul,避免 Transformer 注意力层的“数据饥饿”。证据显示,在 64 芯片集群中,TPU v4 的功耗仅为同规模 A100 GPU 的 52%-77%,每瓦性能高出 2-3 倍。“TPU 采用脉动阵列架构,数据流入阵列后几乎无需额外内存访问,大幅降低能耗。” 谷歌的 OCS(光路交换机)进一步消除光电转换损耗,支持 9216 芯片集群,总算力 42.5 ExaFLOPS。
GPU 的张量核虽优化 matmul,支持混合精度(如 BF16/FP8),但 SMs 的分支预测和多级缓存(L1/L2 + HBM)在动态负载(如变长序列或自定义层)中效率低下。以 Blackwell B200 为例,192GB HBM 带宽约 8TB/s(Ultra 版更高),但实际利用率受非规整访问拖累,仅 60%-70%。在 MLPerf 测试中,A100 集群性能落后 TPU v4 40%,大规模训练中 GPU 能耗高出 30%。动态工作负载下,GPU 的 NVLink(900GB/s/链路)互联虽快,但热密度高:H100 单卡 TDP 700W,集群易达 PUE 1.3+,长期训练(>1 周)需复杂液冷。
针对稠密 matmul 主导的 AI 训练,TPU 在 power/heat scaling 上占据长期优势:v7 每瓦性能较 Trillium 提升 2 倍,3D 环形拓扑(ICI 1.2Tbps/链路)确保低延迟扩展,避免 GPU 的 NVSwitch 瓶颈。实际部署中,TPU Pod(如 v5p 8960 芯片)MFU(Model FLOPs Utilization)稳定 50%-60%,GPU 常降至 30%-40%。
可落地工程参数与清单:
-
集群配置阈值:
- TPU:优先 4x4x4 或倍数 Pod(带 wraparound),最小 256 芯片起规模化;HBM 利用率监控 >85%,低于阈值调大 batch size(推荐 1024-4096)。
- GPU:DGX H100 8-卡节点起,NVLink 拓扑;动态负载下 batch size 512-2048,避免 >16 节点无 InfiniBand。
-
带宽优化参数:
- TPU:XLA 编译启用
--tpu_periodic_copy=off,VMEM 预加载权重(arithmetic intensity >20 FLOPs/byte);HBM 带宽峰值监控,目标 90% 饱和。
- GPU:cuBLAS GEMM 调优
CUBLAS_MATH_DISALLOW_REDUCED_PRECISION=0,Tensor Core 启用 TF32;动态 shape 用 Triton 自定义内核,带宽利用 >70%。
-
功耗/热管理监控点:
| 指标 |
TPU 阈值 |
GPU 阈值 |
回滚策略 |
| TDP/芯片 |
<450W |
<700W |
降频 10% |
| 集群 PUE |
<1.15 |
<1.25 |
加液冷节点 |
| 热密度 (W/cm²) |
<200 |
<300 |
分散 Pod |
| 能效 (TFLOPS/W) |
>10 |
>5 |
切换低精度 |
-
长周期训练清单:
- 预热阶段(1-2h):基准 matmul 测试,验证 systolic vs Tensor Core 利用率。
- 扩展阶段:TPU 用 3D torus 渐增至 4096 芯片,监控 ICI 延迟 <5μs;GPU 限 1024 卡,NVSwitch 饱和 <80%。
- 稳态监控:Prometheus + Grafana,每 5min 采样 HBM 带宽、功耗、MFU;异常阈值:带宽降 20%、热升 15°C → 暂停 checkpoint。
- 回滚策略:TPU 降级 v5p Pod,GPU 切换 A100 备用;成本计算:TPU TCO 低 40%,但生态锁定风险高。
在动态负载占比 <20% 的稠密训练场景,TPU 的 systolic + HBM 组合确保 dominance:Gemini 2.5 推理延迟降 67%,远超 GPU。转向 TPU 可将月训成本降 30%-50%,但需 JAX/TensorFlow 重构。
资料来源:
- Hacker News 讨论:TPUs vs. GPUs 长远 AI 竞赛(链接于 uncoveralpha.com)。
- UncoverAlpha:Google TPU 深度剖析(2025-11-24)。
- MLPerf 基准与 SemiAnalysis 数据(2025)。
(正文字数:1268)