Strix Halo APU 中 RDNA3.5 iGPU 计算单元的芯片粒度分片优化

在 Strix Halo APU 的芯片粒度架构中，RDNA3.5 iGPU 的 40 个计算单元（CU）主要集成于单一 SoC 芯片上，但其与两个 Zen 5 CCD（CPU 芯粒）的交互需通过 Infinity Fabric 互连实现高效资源共享。这种设计虽避免了 iGPU CU 直接跨多个芯片粒度的物理分片，但逻辑分片策略成为优化关键。通过将 CU 工作负载分区为 CPU 辅助计算和纯 GPU 渲染两类，可最小化跨芯粒延迟，确保共享 L3 缓存的访问优先级平衡。

证据显示，CPU 的 64MB 共享 L3 缓存无法访问 iGPU 的 32MB MALL 缓存，这要求分片策略聚焦于系统内存的统一管理。Infinity Fabric 的单 CCD 读带宽上限为 64GB/s，而整体 256-bit LPDDR5X-8000 总线提供 256GB/s 共享带宽。在混合负载下，未优化的 CU 访问可能导致 CPU 带宽饥饿，测试表明跨芯粒延迟可达 123ns，与桌面平台 75-80ns 相比高出 50% 以上。为此，建议采用动态分片算法，将高并行 GPU 任务（如 AI 推理）分配至 iGPU CU 的 70% 容量，剩余 30% 预留 CPU-GPU 协作场景。

优化共享 L3 缓存访问的核心在于分区策略：将 CPU L3 优先用于整数计算密集任务，iGPU 通过系统内存间接受益。带宽分配可参数化为：GPU 峰值占 60%（153.6GB/s），CPU 占 40%（102.4GB/s），使用 AMD 的调度器监控实时使用率。若 GPU 负载超过阈值 80%，则触发 CU 降频 10-15% 以释放带宽。在热约束下，TDP 55-120W 范围内，建议设置温度阈值 85°C，超过时优先节流 iGPU CU（功耗占比 70%），避免 CPU 核心降时钟导致整体性能崩盘。

可落地参数包括：1. CU 分片比例：基础 20 CU 用于渲染，20 CU 用于计算；2. 缓存预取深度：iGPU 设为 128KB，减少跨 Fabric 访问；3. 带宽 QoS：启用优先级队列，GPU 高优先级任务延迟 <50ns；4. 热管理清单：集成传感器监控每芯粒温度，动态调整 CU 活跃数（满载 40 CU，热限 32 CU）。回滚策略：若分片失效，fallback 至统一调度，牺牲 15% GPU 性能换取稳定性。

进一步细化，开发中可利用 ROCm 平台实现 CU 逻辑分片，支持 AVX512 完整宽度加速 CPU-GPU 数据交换。实际部署时，监控指标包括 Fabric 利用率 <90%、内存延迟波动 <20ns。这样的优化不仅平衡了 Strix Halo 的多芯粒负载，还在移动热预算内最大化性能输出。

（字数约 950）