NVIDIA Vera CPU 微架构解析：Olympus 核心如何重构 HPC 与 AI 推理的算力边界

NVIDIA 在数据中心 CPU 市场的野心正从 "GPU 配套件" 转向 "独立算力竞争者"。随着 Vera CPU 的正式发布，这家以 GPU 闻名的公司首次拿出了完全自主设计的 Arm 数据中心核心 ——Olympus。这是自十年前 Denver 核心以来，NVIDIA 首次回归定制 CPU 设计，标志着其从 Grace 时代的 Arm Neoverse 授权方案迈向完全自主的微架构掌控。

Olympus 核心：为 AI 工厂重新设计的宽发射架构

Olympus 的设计哲学可以用一个数字概括：10。这是其指令获取与解码前端的宽度 —— 比 AMD Zen 5 的 8-wide 更宽，也远超 Intel Granite Rapids 的 6-wide。宽发射架构的理论优势在于单周期内可以处理更多独立操作，但前提是前端能够持续提供足够的指令流。

NVIDIA 为此配备了双分支预测器，每个周期可评估两个 taken branch，并由所谓的 "神经分支预测器" 驱动。这种设计明显针对 AI 工作负载中常见的控制流密集型代码 —— 强化学习（RL）后训练中的代码生成、编译、测试循环，以及 Agentic AI 调用外部工具时的复杂分支决策。

后端方面，Olympus 配置了至少 14 条执行流水线处理整数与浮点 / SIMD 操作，外加独立的加载 / 存储单元。这种 "宽前端 + 大后端" 的组合使 NVIDIA 有信心宣称 Olympus 的 IPC（每周期指令数）比 Grace 提升 50%。

但 Olympus 最独特的设计可能是其 Spatial Multithreading（SMT）实现。与传统 SMT 的时间片共享不同，NVIDIA 选择了空间分区 —— 每个硬件线程获得固定且独立的执行资源子集。这种设计的权衡在于：系统管理员需要在 "更少线程但更高单线程性能" 与 "更多线程但单线程降速" 之间做出选择。对于延迟敏感的 RL 沙盒环境，固定资源分配意味着更可预测的性能表现和更少的尾部延迟抖动。

内存子系统：1.2TB/s 的带宽护城河

如果说 Olympus 核心回答了 "算得快" 的问题，Vera 的内存子系统则解决了 "喂得饱" 的挑战。通过 8 个 SOCAMM（Small Outline Compression-Attached Memory Module）模块，Vera 实现了 1024-bit LPDDR5X 接口，总带宽达到 1.2TB/s—— 这是 Grace 的两倍有余，也远超当前 x86 服务器的典型配置。

换算到每核心，这相当于约 14GB/s 的内存带宽，大约是传统数据中心 CPU 的三倍。对于内存密集型工作负载 ——ETL 管道、实时分析、KV Cache 卸载 —— 这种带宽优势直接转化为吞吐量提升。

Vera 采用 Chiplet 设计，但与 AMD EPYC 或 Intel Xeon 的多计算芯粒策略不同，NVIDIA 将所有 88 个 Olympus 核心保留在单一单片计算芯粒上。内存控制器与 I/O 功能被移至周边独立芯粒，这种设计使得从应用视角看，Vera 呈现为单一 NUMA 域。所有核心到缓存、内存、网络资源的访问延迟相对一致，避免了传统多芯粒 CPU 中复杂的 NUMA 感知调度需求。

第二代 Scalable Coherency Fabric（SCF）提供 3.4TB/s 的对分带宽，确保 Vera 在满载时仍能维持超过 90% 的峰值内存带宽。对于在 AI 工厂中运行数千个并发沙盒环境的场景，这种一致性意味着更简单的调度策略和更可预测的服务质量。

早期基准测试：选择性优势与竞争定位

NVIDIA 公布的早期基准显示，Vera 相比 Grace 的几何平均性能提升约 63%，在特定测试中较 AMD EPYC 9575F 领先约 10%，较 Intel Xeon 6980P 领先约 55%。在沙盒容器工作负载中，Vera 在全插槽负载下比 x86 竞品提供高达 1.5 倍的性能。

但需要清醒认识这些数字的局限性。目前的测试结果来自 NVIDIA 选定的工作负载组合，涵盖编译器、脚本解释器、运行时引擎、压缩和 Agentic 工具调用 —— 这些确实是 RL 后训练和 Agentic 推理的关键组件，但未必代表通用 HPC 工作负载的完整图景。

Vera 的竞争优势在以下场景最为明显：

RL 后训练反馈循环：模型生成的代码需要快速编译、执行、测试，CPU 沙盒必须在 GPU 训练迭代的严格时间窗口内返回结果。NVIDIA 宣称 Vera 提供高达 50% 更快的沙盒性能，这意味着更短的模型学习周期和更少的 token 浪费。
Agentic 推理服务：当 AI Agent 需要调用浏览器、数据库、代码解释器等外部工具时，控制流密集的执行路径受益于 Olympus 的高 IPC 和分支预测能力。
内存带宽受限的并行任务：ETL、图分析、大规模向量检索等场景直接受益于 14GB/s 的每核心内存带宽。

部署考量：从芯片到机架

Vera 的部署形态反映了 NVIDIA 对 AI 工厂基础设施的系统性思考。除了与 Rubin GPU 紧密集成的 NVL72 平台外，NVIDIA 还推出了纯 CPU 的 Vera CPU Rack—— 单个机架可容纳 256 颗 Vera CPU，提供超过 22,500 个沙盒容量，性能功耗比是 x86 机架的两倍。

对于基础设施规划者，Vera 引入了几个关键决策点：

内存容量规划：单颗 Vera 支持最高 1.5TB LPDDR5X，是 Grace 的三倍。对于需要大内存驻留 KV Cache 的推理服务，这减少了跨节点通信需求，但也意味着更高的单节点成本。

SMT 配置策略：Spatial Multithreading 的空间分区特性要求运维团队明确选择性能模式（88 线程，最高单线程性能）或吞吐模式（176 线程，更高并行度）。这种选择无法像传统 SMT 那样由操作系统动态调整，需要在部署前基于工作负载特性做出判断。

冷却与功耗：Vera CPU Rack 采用液冷设计，与 NVL72 共享基础设施规划参数。对于已有液冷部署的数据中心，这是优势；对于传统风冷设施，则意味着额外的改造投入。

软件生态：作为 Arm v9.2-A 架构处理器，Vera 兼容现有的 Arm 容器、二进制文件和操作系统。但针对 Olympus 特定特性的优化（如 SMT 模式选择、内存带宽敏感型代码的 NUMA 优化）仍需要软件层面的适配。

结语

Vera CPU 与 Olympus 核心代表了 NVIDIA 在数据中心 CPU 市场的战略升级：从 Grace 的 "够用即可" 到 Vera 的 "自主定义性能边界"。宽发射架构、超高内存带宽、无 NUMA 复杂性的统一设计，都指向一个明确的目标 —— 成为 AI 工厂中除 GPU 之外的另一核心算力支柱。

对于 HPC 和 AI 推理工作负载，Vera 的优势在控制流密集、内存带宽受限、需要确定性延迟的场景最为突出。但早期基准的选择性也意味着，通用计算场景下的真实表现仍需独立验证。随着 2026 年下半年 OEM 系统的全面上市，Vera 能否从 "GPU 配套件" 蜕变为 "通用服务器 CPU 竞争者"，将是数据中心市场格局演变的关键变量。

参考来源

NVIDIA Developer Blog: "NVIDIA Vera CPU Delivers High Performance, Bandwidth, and Efficiency for AI Factories" (2026-03)
ServeTheHome: "NVIDIA's Vera CPU in Detail: High Perf Chip Takes Aim at Broader AI Server Market" (2026-03)

systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。