Strix Halo iGPU 内存子系统工程：统一访问与缓存层次优化

在高性能集成 GPU（iGPU）设计中，统一内存访问（Unified Memory Access）和缓存层次的工程优化是解决带宽瓶颈的核心策略。AMD 的 Strix Halo APU 作为一款高端移动处理器，集成了强大的 RDNA3.5 架构 iGPU，配备 40 个计算单元（CU），旨在为便携式游戏设备提供接近离散级别的图形性能。然而，由于 APU 的共享内存架构，CPU 和 GPU 必须竞争有限的内存资源，这导致了潜在的延迟敏感性和带宽争用问题。本文将从工程视角剖析 Strix Halo 的内存子系统设计，强调如何通过 Infinity Cache 和优化互连路径来平衡这些挑战，并提供可落地的参数配置与监控清单。

首先，理解 iGPU 内存子系统的核心挑战：带宽瓶颈源于统一内存池的共享性。在传统离散 GPU 中，显存（VRAM）独立于系统 RAM，避免了 CPU-GPU 竞争；但在 APU 如 Strix Halo 中，所有组件共享 LPDDR5X 内存（256-bit 接口，支持高达 8000 MT/s 速率）。这使得 GPU 的 “带宽饥饿” 特性（例如渲染复杂场景时需数百 GB/s 吞吐）容易挤压 CPU 的低延迟需求（典型应用如浏览器多任务需 < 100ns 响应）。证据显示，在 Strix Halo 上，当 GPU 负载达到高带宽时，CPU 内存延迟可从基线 140ns 上升至 200ns 以上，甚至在极端场景下超过 300ns。这种争用不仅影响多线程性能，还可能放大功耗和热量问题，限制移动设备的电池续航。

为应对此，Strix Halo 引入了多级缓存层次，以 Infinity Cache 为核心。Infinity Cache 作为内存侧缓存（Memory-Side Cache），容量达 32MB，充当 GPU 的最后一级缓存（LLC），显著减少对 DRAM 的直接访问。相比前代移动 iGPU（如 Strix Point 的较小缓存），这一设计提供了更大的容量提升，延迟虽略高于离散卡（如 RX 7600 的～50ns vs. Strix Halo 的稍高），但在移动功耗预算内实现了近 1TB/s 的缓存带宽。具体而言，GPU 分为两个 Shader Array，每个配备 256KB L1 中级缓存，全 GPU 共享 2MB L2 缓存；Infinity Cache 则通过 512B/cycle 路径连接到 Infinity Fabric 互连，每端点 64B/cycle。这种层次结构确保了 GPU 的 “延迟容忍” 工作负载（如纹理加载）能高效命中缓存，避免 DRAM 瓶颈。

从工程实现看，统一内存访问的关键在于地址空间管理和缓存策略的动态调整。Strix Halo 支持细粒度缓冲区共享（Fine-Grained Buffer Sharing），允许 CPU 和 GPU 零拷贝访问同一内存区域，这在 OpenCL 或 DirectX 12 中尤为有用。例如，使用 CL_MEM_ALLOC_HOST_PTR 标志分配的缓冲区虽不填充到 Infinity Cache，但集成架构的优势使延迟保持在低水平（~100ns），远优于离散 GPU 的近 1μs。软件可通过驱动控制 Infinity Cache 策略，例如根据进程前景 / 背景状态启用 / 禁用缓存安装，这在 Windows 更新后已优化为默认全时可用。证据表明，早期的测试显示后台游戏进程绕过 Infinity Cache，但当前固件已统一行为，确保一致性。

进一步，CPU 侧的内存工程需优化跨芯片 let 通信。Strix Halo 的 16 个 Zen 5 核心分布在两个 Core Complex Die（CCD），通过 TSMC 的 InFO_oS 先进封装连接 IO Die，而非传统 PCB 迹线。这提供了 32B/cycle 的读写带宽，优于桌面 Zen 5 的写方向，但跨 CCD 延迟仍较高（100-120ns），高于桌面平台的 80-90ns。共享内存控制器（UMC）是另一个权衡点：CPU 和 GPU 请求交织调度，PMU 事件显示高 GPU 带宽（>100GB/s）时，CPU L3 外部延迟显著增加。为缓解，AMD 优先 GPU 流量，但这要求开发者监控 Coherent Stations（CS）争用。

可落地参数与清单：在实际部署 Strix Halo APU 时，以下配置可优化内存子系统性能。

缓存配置参数：
- Infinity Cache 容量：固定 32MB，不可调；启用 GPU 专用模式，确保 > 80% 命中率（通过 AMD 性能计数器监控）。
- L2 缓存：2MB 全 GPU 共享，建议游戏应用预热纹理数据以提升局部性。
- 零拷贝阈值：对于 < 256MB 缓冲区，使用 Shared Virtual Memory API，避免 clEnqueueReadBuffer 拷贝开销；测试显示此可将 CPU-GPU 数据传输延迟降至 < 50ns。
带宽与互连优化：
- Infinity Fabric 时钟（FCLK）：目标 2GHz，提供 512B/cycle GPU 路径；若功耗允许，上调至 2.2GHz 以增 10% 带宽，但监控温度 < 85°C。
- LPDDR5X 配置：256-bit @8000 MT/s，理论峰值～256GB/s；实际分配：GPU 优先 70%，CPU 30%（通过调度器 QoS 设置）。
- 跨 CCD 带宽：每个 CCD 32B/cycle 读写；对于多线程应用，绑定核心到同一 CCD 以避 100ns + 延迟。
延迟监控与阈值：
- PMU 事件：跟踪 L3_MISSES（>20% 时警报）、DRAM_LATENCY（基线 < 150ns，GPU 负载下 < 250ns 阈值）。
- 争用检测：使用工具如 AMD uProf 监控 CS 流量；若 GPU 带宽 > 150GB/s 且 CPU 延迟 > 200ns，动态降低 GPU 时钟 10% 以平衡。
- 回滚策略：若多任务延迟 > 300ns，fallback 到软件拷贝 API（clEnqueueWriteBuffer），牺牲带宽换延迟稳定性。
风险缓解清单：
- 功耗限制：总内存子系统 < 50W；集成 Infinity Cache 查找虽不填充 CPU 数据，但增加～5% 功耗 —— 通过 BIOS 禁用非必要 coherency 检查。
- 测试场景：模拟 Cyberpunk 2077 等高负载游戏，验证 CPU 基准（如 Cinebench）下降 < 15%；若超标，优化应用缓存亲和性。
- 未来扩展：考虑固件更新启用 GMI-Wide 式双链路，提升跨 die 带宽 20%，但需权衡封装成本。

总之，Strix Halo 的内存工程展示了在移动约束下追求 iGPU 高性能的巧妙平衡：通过 Infinity Cache 和动态策略缓解带宽瓶颈，同时接受 CPU 延迟 trade-off。这为后续 APU 设计（如更大 iGPU）提供了借鉴，强调缓存容量与互连宽度的协同优化。在实际工程中，开发者应优先监控 PMU 数据，确保系统在游戏 + 生产力负载下稳定。

资料来源：Chips and Cheese, "Strix Halo’s Memory Subsystem: Tackling iGPU Challenges" (2025-10-31)。