过去十五年间,NVIDIA 在消费级与数据中心 GPU 之间维持了一条清晰的精度分界线:FP64 双精度浮点性能。这条分界线不仅是技术选择,更是市场定位的核心杠杆。然而,Blackwell Ultra 架构(B300)的出现彻底颠覆了这一延续十五年的分段模式 —— 数据中心 GPU 的 FP64 性能被大幅压缩至与消费级产品相当的水平。这一转折的技术根源在于 AI 工作负载对低精度张量运算的依赖,以及 FP64 通过张量核心进行软件 emulation 的可行性。
FP64 分段模式的形成与演变
追溯到 2010 年的 Fermi 架构,同一颗 GPU die 可以物理支持 1:2 的 FP64:FP32 比率,但消费级 GeForce 产品通过驱动程序被人为限制在 1:8。这一比率在后续架构中逐步恶化:Kepler 时代降至 1:24,Maxwell/Pascal 时代进一步降至 1:32,直至 Ampere 架构稳定在 1:64。与之形成鲜明对比的是,同期数据中心 GPU 始终维持在 1:2 或 1:3 的 FP64:FP32 比率。这意味着在消费级 GPU 上,FP64 性能在十五年间仅增长了 9.65 倍(从 GTX 480 的 0.17 TFLOPS 到 RTX 5090 的 1.64 TFLOPS),而 FP32 性能却增长了 77.63 倍。
这种分段的底层逻辑并非单纯的成本考量。FP64 硬件单元在芯片上占据可观的晶体管面积与功耗预算,而绝大多数消费级应用 —— 游戏、3D 渲染、视频编辑 —— 根本不涉及双精度计算。NVIDIA 在消费级 GPU 白皮书中明确指出,少量 FP64 硬件单元的存在仅仅是为了 “确保任何包含 FP64 代码的程序能够正确运行”,而非作为性能特性。与此同时,计算流体动力学、气候建模、量化金融、计算化学等传统 HPC 领域高度依赖 FP64 提供的数值稳定性与精度保障。因此,FP64 成为划分消费级与数据中心产品线的理想技术指标,企业级 GPU 凭借完整的 FP64 吞吐量获取显著溢价,2010 年至 2022 年间,企业级与消费级 GPU 的价格比率从约 5 倍扩大至超过 20 倍。
AI 浪潮对精度分界线的冲击
深度学习训练的核心计算模式从根本上改变了对 FP64 的依赖程度。现代神经网络训练在 FP32 精度下已完全足够,而低精度格式 ——FP16、BF16、FP8 甚至 FP4—— 因其在存储、带宽与吞吐量方面的优势而受到青睐。张量核心(Tensor Core)的出现进一步强化了这一趋势:NVIDIA 从 Volta 架构开始引入专用矩阵乘加(MM A)硬件,起初专注于 FP16,随后扩展至 BF16、TF32、FP8、FP6 和 FP4 等多种格式。这些低精度张量核心的算力远超传统 CUDA 核心数倍的 FP32 性能,形成了 AI 时代的核心竞争力。
当消费级 GPU 展现出令人意外的高效 AI 计算能力时,NVIDIA 于 2017 年悄然更新了 GeForce 最终用户许可协议(EULA),明确禁止在数据中心环境中使用消费级 GPU。这一从隐式技术分级向显式合同限制的转变,标志着基于硬件精度的分段逻辑已经开始松动 —— 既然消费级硬件在 AI 任务上足够强大,传统的 FP64 分界线便失去了原有的市场区隔意义。
Blackwell Ultra 的断代式转折
Blackwell 架构本身提供了两种产品形态:标准数据中心 B200 与 Ultra 增强版 B300。B200 仍保留了传统 HPC 数据中心 GPU 的特征,FP64 吞吐量约为 37 TFLOPS,FP64:FP32 比率维持在接近 1:2 的水平。但 B300 作为 Ultra 型号,做出了一个令整个行业侧目的决定:将 FP64 峰值性能大幅削减至约 1.2 TFLOPS,FP64:FP32 比率从 1:2 骤降至 1:64。这一数值恰好与消费级 RTX 5090 的比率相同,从绝对性能上看甚至低于后者。
这一决策的技术逻辑在于:AI 训练与推理 workloads 已成为数据中心 GPU 的绝对收入主力,NVIDIA 需要将更多的芯片资源分配给低精度张量核心(NVFP4、FP8 等),而非传统 FP64 运算单元。即便是必须使用双精度的 HPC 应用,也可以通过 FP64 emulation 方案在低精度张量核心上运行。NVIDIA 在 cuBLAS 库中已支持 Ozaki 方案,该方法利用矩阵乘法的分配律,将 FP64 矩阵分解为多个 FP8 或 FP4 块进行计算,最后在 FP64 精度下汇总结果。这种方式在保持数值精度的同时,实质上利用了为 AI 时代准备的丰富低精度算力。
工程落地的可操作参数
对于需要在新架构上部署 HPC 工作负载的团队,以下参数值得在性能调优与监控中重点关注。首先是 FP64 emulation 模式下的有效吞吐量:启用 Ozaki 方案后,单精度张量核心的峰值算力可转化为约 1/16 至 1/8 的等效 FP64 性能(取决于矩阵维度与分块策略),具体数值需通过实际矩阵运算 benchmark 验证。其次是内存带宽敏感性:FP64 emulation 相比原生 FP64 会产生额外的数据搬移开销,当 HBM3e 带宽成为瓶颈时,emulation 方案的端到端性能可能不升反降,建议监控 memory bandwidth utilization 指标并与原生 FP64 执行路径进行 A/B 测试。第三是数值精度偏差监控:虽然 Ozaki 方案在数学上可保证完整 53 位尾数精度,但分块与累加过程中的舍入策略可能引入极微小的偏差,对于要求极高性能迭代收敛的 CFD 或蒙特卡洛模拟,建议在首次部署时进行精度验证对比。
从架构演进的角度看,NVIDIA 并未完全放弃 FP64 硬件支持,但未来提升路径已明确指向 “张量核心优先” 策略。传统 FP64 单元的相对重要性将持续下降,而 FP64 emulation 能力 —— 即如何在低精度张量硬件上高效模拟高精度计算 —— 将成为 HPC 软件栈的核心竞争力。这标志着 GPU 精度设计从 “硬件分级” 向 “软件定义” 的范式转移。
参考资料
- Nicolas Dickenmann: "Fifteen Years of FP64 Segmentation, and Why the Blackwell Ultra Breaks the Pattern" (nicolasdickenmann.com)