NVIDIA 在数据中心 CPU 市场的野心正从 "GPU 配套件" 转向 "独立算力竞争者"。随着 Vera CPU 的正式发布,这家以 GPU 闻名的公司首次拿出了完全自主设计的 Arm 数据中心核心 ——Olympus。这是自十年前 Denver 核心以来,NVIDIA 首次回归定制 CPU 设计,标志着其从 Grace 时代的 Arm Neoverse 授权方案迈向完全自主的微架构掌控。
Olympus 核心:为 AI 工厂重新设计的宽发射架构
Olympus 的设计哲学可以用一个数字概括:10。这是其指令获取与解码前端的宽度 —— 比 AMD Zen 5 的 8-wide 更宽,也远超 Intel Granite Rapids 的 6-wide。宽发射架构的理论优势在于单周期内可以处理更多独立操作,但前提是前端能够持续提供足够的指令流。
NVIDIA 为此配备了双分支预测器,每个周期可评估两个 taken branch,并由所谓的 "神经分支预测器" 驱动。这种设计明显针对 AI 工作负载中常见的控制流密集型代码 —— 强化学习(RL)后训练中的代码生成、编译、测试循环,以及 Agentic AI 调用外部工具时的复杂分支决策。
后端方面,Olympus 配置了至少 14 条执行流水线处理整数与浮点 / SIMD 操作,外加独立的加载 / 存储单元。这种 "宽前端 + 大后端" 的组合使 NVIDIA 有信心宣称 Olympus 的 IPC(每周期指令数)比 Grace 提升 50%。
但 Olympus 最独特的设计可能是其 Spatial Multithreading(SMT)实现。与传统 SMT 的时间片共享不同,NVIDIA 选择了空间分区 —— 每个硬件线程获得固定且独立的执行资源子集。这种设计的权衡在于:系统管理员需要在 "更少线程但更高单线程性能" 与 "更多线程但单线程降速" 之间做出选择。对于延迟敏感的 RL 沙盒环境,固定资源分配意味着更可预测的性能表现和更少的尾部延迟抖动。
内存子系统:1.2TB/s 的带宽护城河
如果说 Olympus 核心回答了 "算得快" 的问题,Vera 的内存子系统则解决了 "喂得饱" 的挑战。通过 8 个 SOCAMM(Small Outline Compression-Attached Memory Module)模块,Vera 实现了 1024-bit LPDDR5X 接口,总带宽达到 1.2TB/s—— 这是 Grace 的两倍有余,也远超当前 x86 服务器的典型配置。
换算到每核心,这相当于约 14GB/s 的内存带宽,大约是传统数据中心 CPU 的三倍。对于内存密集型工作负载 ——ETL 管道、实时分析、KV Cache 卸载 —— 这种带宽优势直接转化为吞吐量提升。
Vera 采用 Chiplet 设计,但与 AMD EPYC 或 Intel Xeon 的多计算芯粒策略不同,NVIDIA 将所有 88 个 Olympus 核心保留在单一单片计算芯粒上。内存控制器与 I/O 功能被移至周边独立芯粒,这种设计使得从应用视角看,Vera 呈现为单一 NUMA 域。所有核心到缓存、内存、网络资源的访问延迟相对一致,避免了传统多芯粒 CPU 中复杂的 NUMA 感知调度需求。
第二代 Scalable Coherency Fabric(SCF)提供 3.4TB/s 的对分带宽,确保 Vera 在满载时仍能维持超过 90% 的峰值内存带宽。对于在 AI 工厂中运行数千个并发沙盒环境的场景,这种一致性意味着更简单的调度策略和更可预测的服务质量。
早期基准测试:选择性优势与竞争定位
NVIDIA 公布的早期基准显示,Vera 相比 Grace 的几何平均性能提升约 63%,在特定测试中较 AMD EPYC 9575F 领先约 10%,较 Intel Xeon 6980P 领先约 55%。在沙盒容器工作负载中,Vera 在全插槽负载下比 x86 竞品提供高达 1.5 倍的性能。
但需要清醒认识这些数字的局限性。目前的测试结果来自 NVIDIA 选定的工作负载组合,涵盖编译器、脚本解释器、运行时引擎、压缩和 Agentic 工具调用 —— 这些确实是 RL 后训练和 Agentic 推理的关键组件,但未必代表通用 HPC 工作负载的完整图景。
Vera 的竞争优势在以下场景最为明显:
- RL 后训练反馈循环:模型生成的代码需要快速编译、执行、测试,CPU 沙盒必须在 GPU 训练迭代的严格时间窗口内返回结果。NVIDIA 宣称 Vera 提供高达 50% 更快的沙盒性能,这意味着更短的模型学习周期和更少的 token 浪费。
- Agentic 推理服务:当 AI Agent 需要调用浏览器、数据库、代码解释器等外部工具时,控制流密集的执行路径受益于 Olympus 的高 IPC 和分支预测能力。
- 内存带宽受限的并行任务:ETL、图分析、大规模向量检索等场景直接受益于 14GB/s 的每核心内存带宽。
部署考量:从芯片到机架
Vera 的部署形态反映了 NVIDIA 对 AI 工厂基础设施的系统性思考。除了与 Rubin GPU 紧密集成的 NVL72 平台外,NVIDIA 还推出了纯 CPU 的 Vera CPU Rack—— 单个机架可容纳 256 颗 Vera CPU,提供超过 22,500 个沙盒容量,性能功耗比是 x86 机架的两倍。
对于基础设施规划者,Vera 引入了几个关键决策点:
内存容量规划:单颗 Vera 支持最高 1.5TB LPDDR5X,是 Grace 的三倍。对于需要大内存驻留 KV Cache 的推理服务,这减少了跨节点通信需求,但也意味着更高的单节点成本。
SMT 配置策略:Spatial Multithreading 的空间分区特性要求运维团队明确选择性能模式(88 线程,最高单线程性能)或吞吐模式(176 线程,更高并行度)。这种选择无法像传统 SMT 那样由操作系统动态调整,需要在部署前基于工作负载特性做出判断。
冷却与功耗:Vera CPU Rack 采用液冷设计,与 NVL72 共享基础设施规划参数。对于已有液冷部署的数据中心,这是优势;对于传统风冷设施,则意味着额外的改造投入。
软件生态:作为 Arm v9.2-A 架构处理器,Vera 兼容现有的 Arm 容器、二进制文件和操作系统。但针对 Olympus 特定特性的优化(如 SMT 模式选择、内存带宽敏感型代码的 NUMA 优化)仍需要软件层面的适配。
结语
Vera CPU 与 Olympus 核心代表了 NVIDIA 在数据中心 CPU 市场的战略升级:从 Grace 的 "够用即可" 到 Vera 的 "自主定义性能边界"。宽发射架构、超高内存带宽、无 NUMA 复杂性的统一设计,都指向一个明确的目标 —— 成为 AI 工厂中除 GPU 之外的另一核心算力支柱。
对于 HPC 和 AI 推理工作负载,Vera 的优势在控制流密集、内存带宽受限、需要确定性延迟的场景最为突出。但早期基准的选择性也意味着,通用计算场景下的真实表现仍需独立验证。随着 2026 年下半年 OEM 系统的全面上市,Vera 能否从 "GPU 配套件" 蜕变为 "通用服务器 CPU 竞争者",将是数据中心市场格局演变的关键变量。
参考来源
- NVIDIA Developer Blog: "NVIDIA Vera CPU Delivers High Performance, Bandwidth, and Efficiency for AI Factories" (2026-03)
- ServeTheHome: "NVIDIA's Vera CPU in Detail: High Perf Chip Takes Aim at Broader AI Server Market" (2026-03)
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。