Hotdry.
ai-systems

用 Ironwood TPU 部署低延迟 AI 推理:3nm 工艺、192GB HBM3E 与优化软件栈的高吞吐实践

Ironwood TPU 凭借 3nm 工艺、192GB HBM3E 内存与 vLLM/GKE 软件栈,实现低延迟高吞吐 AI 推理服务,提供部署参数、阈值与监控清单。

在 AI 推理时代,低延迟和高吞吐已成为核心诉求。Google Ironwood TPU 作为第七代专用加速器,以先进 3nm 工艺、巨量 192GB HBM3E 内存和深度优化的软件栈,为大规模模型 serving 提供理想平台。通过硬件级并行与软件级批处理,可将首字生成时间(TTFT)缩短 96%,成本降低 30%,适用于聊天机器人、多模态生成等场景。

Ironwood 的硬件设计直击推理瓶颈。单芯片峰值算力达 4614 TFLOPS(FP8),较前代 Trillium 提升 5 倍,每瓦性能翻倍至 29.3 TFLOPS,支持 MoE 和长上下文模型高效执行。“Ironwood 每颗芯片提供 192GB HBM3E 内存,是 Trillium 的 6 倍,带宽 7.2 Tbps,提升 4.5 倍。” 增强 ICI 互连双向达 1.2 Tbps/chip,支持扩展至 9216 芯片 Pod,总算力 42.5 ExaFLOPS,共享 1.77 PB HBM。通过 OCS 光学电路交换,故障时毫秒级重构网络,确保 99.999% 可用性。3nm 工艺进一步压缩功耗,支持液冷部署,满载超 100kW 机架稳定运行。

软件栈是高吞吐关键。vLLM on TPU 从 Day 1 优化,支持多查询注意力(Multi-Query Attention)和稀疏核心卸载,解决预填充 / 解码瓶颈。启用分块预填充(Chunked Prefill)和连续批处理(Continuous Batching),KV 缓存利用率提升 90%。GKE Inference Gateway 智能调度,动态分配 TPU 资源,TTFT 降至毫秒级。MaxText 框架集成 SFT/GRPO,Pathways 运行时跨 Pod 扩展数十万芯片。GKE Cluster Director 提供拓扑感知调度,结合 Prometheus 指标监控。

部署落地参数清单如下:

1. 硬件配置

  • Pod 规模:起步 256 芯片(中小模型),扩展 9216 芯片(万亿参数 LLM)。
  • 内存分配:模型权重占 70% HBM(134 GB/chip),KV 缓存 20%(38 GB),预留 10% 缓冲。
  • 网络:ICI 1.2 Tbps/chip,Jupiter DCN 100 Gbps/chip,确保 All-Reduce <1ms。
  • 冷却:第三代液冷,流量阈值 0.5-1 LPM/chip,温度上限 65°C。

2. vLLM 推理引擎参数

  • --tensor-parallel-size 8(8x 切片,平衡负载)。
  • --max-model-len 1M(长上下文,支持 2048 预填充 + 256 解码)。
  • --chunked-prefill-size 8192(分块阈值,减少内存峰值)。
  • --enable-prefix-caching(APC,命中率 >50% 时 TTFT 降 70%)。
  • 量化:FP8 原生,备用 INT8 降内存 50%。
  • 批处理:--max-num-batched-tokens 4096,吞吐 >1K tokens/s/chip。

3. GKE Inference Gateway 配置

  • 副本数: autoscaling 1-16,根据 QPS 0.1-10。
  • TTFT 阈值:P95 <500ms,超时 2s 回滚。
  • 负载均衡:权重基于 SparseCore 利用率 >80%。
  • 集成 Anywhere Cache:跨区延迟降 96%,命中率目标 90%。

4. 监控与阈值

  • Prometheus 指标:HBM 利用 <85%、ICI 带宽>80%、TTFT P99 <1s、吞吐 >500 QPS/Pod。
  • 警报:温度 >60°C、故障率 >0.1%/h(OCS 自动隔离)。
  • 日志:JetStream 追踪预填充 / 解码瓶颈,优化 >10% 延迟时警报。

5. 风险与回滚策略

  • 规模风险:从小 Pod 测试,渐进扩展;OCI 故障模拟演练。
  • 软件兼容:基准 Gemma/Claude,SFT 微调 <24h。
  • 成本控制:每 token 成本 <0.1¢,超阈值降批大小。
  • 回滚:Pathways 检查点恢复,<5min 零中断切换 Trillium。

实际案例中,Anthropic 用百万 Ironwood TPU 运行 Claude,扩展性获赞。Lightricks LTX-2 多模态训练效率翻倍。通过上述参数,企业可快速部署:GKE Quickstart 模板一键启动,监控 Dashboard 实时调优。Ironwood 不止硬件,更是系统级推理平台,推动 agentic AI 落地。

资料来源:Google Cloud 官方规格、vLLM TPU 优化文档、Hot Chips 2025 Ironwood 报告、超能网分析。

(正文字数:1256)

查看归档