GPU矩阵乘法的'可预测数据'现象：从晶体管功耗到内存合并访问的底层机制

在 GPU 上运行矩阵乘法时，一个反直觉的现象是：输入数据的 "可预测性" 会显著影响性能。全零矩阵的乘法运算可能比随机初始化矩阵快 15% 以上 —— 在 A100 上，全零输入可达 295 TFLOPS，而正态分布随机数据仅为 257 TFLOPS。这并非由于算法差异或内存稀疏性，而是源于 GPU 硬件层面的功耗特性与内存访问模式的深层交互。

动态功耗：被忽视的晶体管翻转成本

GPU 的功耗由两部分组成：静态漏电流（static/leakage power）和动态开关功耗（dynamic/switching power）。前者是电路通电即存在的 baseline 功耗（A100 约 88W），后者则发生在晶体管状态切换时 —— 每次 0/1 翻转都消耗能量。当数十亿晶体管高频翻转时，总功耗可能触及设计上限（A100 为 400W），触发 VRM（电压调节模块）降压降频，直接限制性能。

"可预测数据" 之所以能提升性能，是因为它减少了晶体管翻转次数。全零输入意味着乘法累加过程中累加器保持恒定，相关运算单元的晶体管几乎不切换状态；而随机数据导致累加器频繁在正负值间跳变，触发大量晶体管翻转，功耗上升并触发热节流。实测显示，当功耗限制从 330W 降至 100W 时，全零与随机输入的性能差距进一步扩大，验证了功耗墙是核心瓶颈。

Warp 调度与内存合并访问

现代 GPU 以 warp（32 线程）为单位调度执行。在矩阵乘法中，每个 warp 负责计算输出矩阵的一个 tile。理想情况下，warp 内所有线程应访问连续的内存地址，形成合并访问（coalesced access）—— 单次内存事务即可满足 32 线程的数据需求。

当矩阵形状与硬件参数对齐时，合并访问效率最高。GPU 的 cache line 通常为 128 字节（32 个 float32），若矩阵列数能被 32 整除，每行恰好从 cache line 边界开始，tile 加载时无需处理跨行碎片。反之，若列数为奇数（如 2047 而非 2048），逻辑行与物理 cache line 错位，加载一个 tile 需要额外的内存事务来收集跨边界的元素，带宽利用率骤降。

Bank Conflict 与共享内存布局

在矩阵乘法的分块计算中，输入矩阵的 tile 被加载到共享内存（shared memory）。共享内存按 bank 组织（通常为 32 个 bank），连续 32 位字分布于不同 bank 以实现并行访问。当同一 warp 内的多个线程访问同一 bank 的不同地址时，发生bank conflict，访问被串行化，性能受损。

矩阵形状的选取直接影响 bank conflict 概率。若 tile 宽度与 bank 数量（32）不互质，线程映射到共享内存时可能集中落在少数 bank 上。例如，128×128 的 tile 配合行优先存储，当 K 维度为 128 的倍数时，线程访问模式恰好均匀分布于各 bank；而 K=127 时，访问模式错位，bank conflict 概率上升。这解释了为何形状为 2、8、16、32 的幂次时性能呈阶梯式提升。

Wave Quantization：并行度的隐形代价

GPU 以 SM（Streaming Multiprocessor）为单位分配计算任务。A100 有 108 个 SM，若矩阵乘法产生的 tile 块数恰好为 108 的整数倍，所有 SM 满载运行，无空闲周期。但当 tile 数从 108 增至 109 时，需要两轮调度（wave）—— 第一轮 108 个 SM 各执行一个 tile，第二轮仅 1 个 SM 工作，其余 107 个 SM 空闲等待，整体利用率从 100% 降至约 50%。

这种现象称为wave quantization，在性能曲线上表现为周期性的锯齿状波动。例如，当矩阵尺寸从 1792（7×14=98 tiles，单 wave）增至 1793（8×15=120 tiles，双 wave）时，尽管问题规模仅增加 0.06%，执行时间却可能翻倍。NVIDIA 的 cuBLAS 会尝试选择不同的 tile 尺寸来规避此问题，但并非总能找到最优解。

工程实践建议

基于上述机制，以下是可落地的优化参数：

矩阵形状选择

优先选择能被 32 整除的维度（M、N、K），确保 cache line 对齐
避免维度为质数或接近 SM 数量的非整数倍，减少 wave quantization
对于 batch matmul，batch size 同样考虑对齐，避免最后一波仅含少量任务

内存布局优化

使用行优先（row-major）存储，确保内层维度（K）连续访问
若需列优先，通过转置或自定义 kernel 调整线程映射，维持合并访问
共享内存中考虑使用 padding 消除 bank conflict，如将 128×128 tile 扩展为 128×132

功耗与性能测试

基准测试时统一输入数据分布，避免全零与随机数据混用导致结果偏差
监控nvidia-smi的功耗与频率，确认是否触及功耗墙
对于 H100 等新一代 GPU，功耗限制更严格，"predictable data" 效应可能更显著

诊断清单

使用 Nsight Compute 分析 memory throughput，确认是否达到理论带宽
检查 shared memory bank conflict 指标，若冲突率 > 5% 考虑调整 tile 形状
观察 occupancy 与 wave count，理想情况下 wave count 应为 1 或接近整数倍

小结

GPU 矩阵乘法的性能并非仅由算法复杂度决定，而是晶体管物理特性、内存层次结构与并行调度策略共同作用的结果。"Predictable data" 现象揭示了动态功耗对计算密集型任务的隐性约束，而内存合并访问与 bank conflict 则体现了数据布局与硬件执行模型的匹配重要性。在模型训练与推理的极致优化场景中，理解这些底层机制能够帮助开发者从 "玄学" 般的性能波动中找出确定性规律，榨取硬件的最后一滴算力。

参考来源

Horace He, "Strangely, Matrix Multiplications on GPUs Run Faster When Given 'Predictable' Data!", Thonking From First Principles, 2024
Horace He, "What Shapes Do Matrix Multiplications Like?", Thonking From First Principles, 2024

systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。