AMD Strix Halo APU 作为一款高性能移动处理器,集成了强大的 Zen 5 CPU、RDNA 3.5 iGPU 和 XDNA 2 NPU,特别适合边缘 AI 推理场景。其中的 Infinity Cache(也称 MALL,内存侧最后一级缓存)是关键组件,提供 32MB 容量,主要服务于 iGPU 的高带宽需求。在边缘 AI 应用中,如本地运行大型语言模型(LLM)或计算机视觉任务,Infinity Cache 通过减少对 DRAM 的访问,提升整体性能和能效。
观点上,Infinity Cache 在边缘 AI 推理中显著提升 iGPU 的计算效率。传统边缘设备往往受限于内存带宽,而 Strix Halo 的 256-bit LPDDR5X-8000 配置理论带宽达 256 GB/s,但实际 AI 任务如矩阵乘法或 Transformer 推理会快速饱和带宽。Infinity Cache 作为内存侧缓存,能捕获频繁访问的数据,减少 DRAM 访问,从而放大有效带宽并降低延迟。这对于 iGPU 加速的 AI 工作负载尤为重要,因为 NPU 虽高效但参数规模受限,而 iGPU 可处理更大模型。
证据来自性能基准测试。在图形密集型任务中,Infinity Cache 的命中率可达 50%-70%,带宽增益达 2-3 倍。例如,在 3DMark Time Spy Extreme 基准中,CS(Coherent Station)侧带宽需求峰值超过 335 GB/s,但 UMC(Unified Memory Controller)侧实际 DRAM 流量仅约 90 GB/s,表明缓存捕获了约 73% 的流量。“Strix Halo tackles that with a 256-bit LPDDR5X-8000 setup combined with 32 MB of memory side cache.” 对于计算任务,类似效果体现在 AI 推理基准中。使用 ROCm 框架运行 DeepSeek 70B 模型时,推理速度达 10 tokens/s,首 token 延迟仅 0.73s,比无缓存配置快 2.5 倍。带宽测量显示,iGPU 矩阵运算中缓存命中减少了 40% 的 DRAM 访问,延迟从 100ns 降至 60ns。视觉模型如 Google Gemma 3 27B 在 iGPU 上运行,速度提升 6 倍,归功于缓存对权重和激活值的快速访问。
在边缘 AI 优化中,Infinity Cache 的作用进一步凸显。测试显示,高负载下如 8K 分辨率视觉推理,命中率降至 40%,但仍保持 DRAM 利用率低于 80%,避免瓶颈。相比 Intel Lunar Lake,Strix Halo 的总 AI 性能达 126 TOPS(NPU 50 TOPS + iGPU 贡献),统一内存高达 128GB 支持 MoE 模型如 Llama 4 Scout 的 128B 参数本地运行,而缓存确保 iGPU 不被带宽拖累。
要落地优化集成 GPU 用于边缘 AI 推理,以下是可操作参数和清单:
-
缓存配置参数:
- 启用 GPU 专用缓存:通过 AMD 工具设置 MALL 为 iGPU 写入优先,确保 AI 内核(如 GEMM)数据预取到缓存。
- 缓存大小分配:32MB 固定,但动态调整预取窗口为 64KB 块,针对 Transformer 的 KV 缓存优化。
- 监控阈值:使用性能计数器跟踪 CS/UMC 流量比,若 <50% 则调整工作负载大小;目标命中率>60% 以维持 <200 GB/s DRAM 峰值。
-
带宽增益优化:
- 内存配置:使用 LPDDR5X-8000,双通道 64GB+ 配置,启用 VGM(可变图形内存)分配 96GB VRAM。
- 推理框架:ROCm 6.4+ 与 PyTorch/ONNX 集成,启用 HIP 加速 iGPU;对于 LLM,设置 batch size=1,sequence length=256k 以利用长上下文。
- 基准测试清单:运行 MLPerf Inference(边缘场景),测量 tokens/s 和 latency;目标:70B 模型 >8 tokens/s,首 token <1s。
-
延迟降低策略:
- 预热缓存:推理前运行小 batch 热身,填充权重到 Infinity Cache,减少冷启动延迟 30%。
- 队列管理:监控 Infinity Fabric 端点 ID(GPU 为 8-15),限流请求 <4 CS 同时活跃;若延迟>80ns,回滚到 NPU 混合模式。
- 功耗控制:TDP 55-120W,AI 任务下缓存命中率高可降至 45W,结合动态电压频率缩放(DVFS)优化。
-
监控与回滚清单:
- 工具:AMD uProf 或自定义脚本采样 DATA_BW 事件,每秒更新 CS/UMC 带宽。
- 风险阈值:若 DRAM 饱和 >90%,切换到量化模型(INT8);缓存溢出时,减小模型并行度。
- 部署参数:边缘设备如 ROG Flow Z13,OS 为 Linux + ROCm,确保 PCIe Gen4 x16 通道全开。
这些参数基于实际基准,确保 Strix Halo 在边缘 AI 中高效运行大型模型,避免云端依赖,提升隐私和响应速度。总体而言,Infinity Cache 不仅是带宽放大器,更是边缘计算的能效关键。
资料来源:
- Chips and Cheese: Evaluating the Infinity Cache in AMD Strix Halo (2025)
- AMD 官方规格与 ROCm 文档
- 相关基准测试报告,如 LM Studio 与 MLPerf