AMD CDNA 矩阵核心指令融合与张量操作调度：高吞吐 GEMM 和稀疏加速

AMD CDNA 架构专为高性能计算（HPC）和 AI 工作负载设计，其核心亮点在于 Matrix Core 单元，通过指令融合机制实现 GEMM（General Matrix Multiply）运算的高吞吐加速。这种融合不同于传统 SIMD 向量单元的逐元素操作，而是 wavefront 级（AMD GPU 中 32/64 线程波）的矩阵乘累加（MFMA），直接将 A×B+C 的多步运算融合为单条指令，减少调度开销并提升 ILP（指令级并行）。

观点一：指令融合是 Matrix Core 性能基石。MFMA 指令（如 V_MFMA_F32_16x16x4F32）在单周期内完成 16×16×4 规模的矩阵外积求和，支持 FP64/FP32/FP16/BF16/INT8 等精度。在 MI250X 上，FP16 Matrix Core 吞吐达 1024 FLOPS / 时钟 / CU，是向量 FMA 的 8 倍。这种融合避免了多次加载 / 存储，寄存器压力降低 50% 以上，适用于 Transformer 等 GEMM 密集模型。

证据：在 ROCm 博客中，__builtin_amdgcn_mfma_f32_16x16x4f32 内置函数示例显示，单波前即可处理 16×16 输出矩阵，输入 A (16×4)/B (4×16) 通过寄存器布局映射线程通道，实现零拷贝融合。“AMD CDNA GPU 中的 MFMA 指令在 wavefront 上操作，输入输出矩阵条目分布于矢量寄存器通道。”

落地参数：GEMM 块大小选 16x16x4（高占用率），cbsz=0（无广播，默认布局），abid=0，blgp=0。监控寄存器占用 < 192/256，避免溢出。ROCm 6.0+ 编译选项 -mamdgpu-matrix-core=cdna2 启用融合。

观点二：张量操作调度优化 GEMM 流水线。Matrix Core 调度依赖 wavefront 寄存器映射和修饰符，A/B 矩阵从通用 RF 加载，C/D 累加器专用（CDNA1），CDNA2/CDNA3 统一大 RF（512 个 64-bit 槽）。调度器需处理数据冒险：MFMA 后 4 周期延迟读结果，使用双缓冲隐藏。

证据：AMD Matrix Instruction Calculator 工具显示，MI300 SMFMAC 稀疏指令寄存器布局：K 矩阵替换 C，提供压缩元数据，支持 2:4 结构稀疏，吞吐翻倍。GitHub 仓库支持 --detail-instruction 查询 MFMA/SMFMAC 寄存器数与吞吐。

落地清单：

寄存器布局：A 矩阵行优先，线程 (tx,ty) 映射 A [ty][tx % K]，用 --register-layout gfx942 查询。
修饰符调优：cbsz=1 广播 A 块（稀疏场景），blgp=1 通道 0-31→32-63，提升填充率 > 50%。
流水调度：循环 K 维展开 4 次 / 指令，交替 MFMA + 加载；rocBLAS 默认 tile 128x128x16。
稀疏加速：剪枝阈值 0.5（2:4 模式），cusparseLtSpMMAPrune 后压缩，SMFMAC_F32_16x16x16F32 吞吐 2048 OPS/CU。

观点三：高吞吐 GEMM 实战参数与监控。针对 MI300X（CDNA3），峰值 FP8 5 PFLOPS，支持 sparsity+HBM3e。调度优先级：最大化 CU 占用（>90%），最小化波间 stall（<5%）。

证据：CDNA3 Matrix Core 增强 ILP，支持 FP8/TF32，稀疏 GEMM 达 2x 密集。rocm-smi 监控 mfma_util>80%，stall_mc>10% 则调 blgp。

落地参数：

参数	值	场景
MFMA 规模	32x32x4	FP32 GEMM
稀疏模式	2:4	INT8 推理
缓冲深度	2	隐藏延迟
精度	BF16→FP32	训练

回滚策略：若融合失败，降至 rocWMMA 库；精度溢出用 FP32 回退。风险：寄存器饥饿（>256 槽），用 -O3 -finline-limit=1000 优化。

最后，集成 ROCm 栈：hipcc 编译 intrinsics，rocBLAS GEMM 自动融合。实际部署 MI300 集群，BERT-Large 推理吞吐提升 3x。

资料来源：

AMD CDNA 官网：https://www.amd.com/en/technologies/cdna.html
ROCm Matrix Cores 博客：https://rocm.blogs.amd.com/software-tools-optimization/matrix-cores/README.html
Matrix Instruction Calculator：https://github.com/ROCm/amd_matrix_instruction_calculator

（正文约 950 字）