用 Ironwood TPU 部署低延迟 AI 推理：3nm 工艺、192GB HBM3E 与优化软件栈的高吞吐实践

在 AI 推理时代，低延迟和高吞吐已成为核心诉求。Google Ironwood TPU 作为第七代专用加速器，以先进 3nm 工艺、巨量 192GB HBM3E 内存和深度优化的软件栈，为大规模模型 serving 提供理想平台。通过硬件级并行与软件级批处理，可将首字生成时间（TTFT）缩短 96%，成本降低 30%，适用于聊天机器人、多模态生成等场景。

Ironwood 的硬件设计直击推理瓶颈。单芯片峰值算力达 4614 TFLOPS（FP8），较前代 Trillium 提升 5 倍，每瓦性能翻倍至 29.3 TFLOPS，支持 MoE 和长上下文模型高效执行。“Ironwood 每颗芯片提供 192GB HBM3E 内存，是 Trillium 的 6 倍，带宽 7.2 Tbps，提升 4.5 倍。” 增强 ICI 互连双向达 1.2 Tbps/chip，支持扩展至 9216 芯片 Pod，总算力 42.5 ExaFLOPS，共享 1.77 PB HBM。通过 OCS 光学电路交换，故障时毫秒级重构网络，确保 99.999% 可用性。3nm 工艺进一步压缩功耗，支持液冷部署，满载超 100kW 机架稳定运行。

软件栈是高吞吐关键。vLLM on TPU 从 Day 1 优化，支持多查询注意力（Multi-Query Attention）和稀疏核心卸载，解决预填充 / 解码瓶颈。启用分块预填充（Chunked Prefill）和连续批处理（Continuous Batching），KV 缓存利用率提升 90%。GKE Inference Gateway 智能调度，动态分配 TPU 资源，TTFT 降至毫秒级。MaxText 框架集成 SFT/GRPO，Pathways 运行时跨 Pod 扩展数十万芯片。GKE Cluster Director 提供拓扑感知调度，结合 Prometheus 指标监控。

部署落地参数清单如下：

1. 硬件配置

Pod 规模：起步 256 芯片（中小模型），扩展 9216 芯片（万亿参数 LLM）。
内存分配：模型权重占 70% HBM（134 GB/chip），KV 缓存 20%（38 GB），预留 10% 缓冲。
网络：ICI 1.2 Tbps/chip，Jupiter DCN 100 Gbps/chip，确保 All-Reduce <1ms。
冷却：第三代液冷，流量阈值 0.5-1 LPM/chip，温度上限 65°C。

2. vLLM 推理引擎参数

--tensor-parallel-size 8（8x 切片，平衡负载）。
--max-model-len 1M（长上下文，支持 2048 预填充 + 256 解码）。
--chunked-prefill-size 8192（分块阈值，减少内存峰值）。
--enable-prefix-caching（APC，命中率 >50% 时 TTFT 降 70%）。
量化：FP8 原生，备用 INT8 降内存 50%。
批处理：--max-num-batched-tokens 4096，吞吐 >1K tokens/s/chip。

3. GKE Inference Gateway 配置

副本数： autoscaling 1-16，根据 QPS 0.1-10。
TTFT 阈值：P95 <500ms，超时 2s 回滚。
负载均衡：权重基于 SparseCore 利用率 >80%。
集成 Anywhere Cache：跨区延迟降 96%，命中率目标 90%。

4. 监控与阈值

Prometheus 指标：HBM 利用 <85%、ICI 带宽>80%、TTFT P99 <1s、吞吐 >500 QPS/Pod。
警报：温度 >60°C、故障率 >0.1%/h（OCS 自动隔离）。
日志：JetStream 追踪预填充 / 解码瓶颈，优化 >10% 延迟时警报。

5. 风险与回滚策略

规模风险：从小 Pod 测试，渐进扩展；OCI 故障模拟演练。
软件兼容：基准 Gemma/Claude，SFT 微调 <24h。
成本控制：每 token 成本 <0.1¢，超阈值降批大小。
回滚：Pathways 检查点恢复，<5min 零中断切换 Trillium。

实际案例中，Anthropic 用百万 Ironwood TPU 运行 Claude，扩展性获赞。Lightricks LTX-2 多模态训练效率翻倍。通过上述参数，企业可快速部署：GKE Quickstart 模板一键启动，监控 Dashboard 实时调优。Ironwood 不止硬件，更是系统级推理平台，推动 agentic AI 落地。

资料来源：Google Cloud 官方规格、vLLM TPU 优化文档、Hot Chips 2025 Ironwood 报告、超能网分析。

（正文字数：1256）