Hotdry.
ai-systems

OpenAI 与 NVIDIA 千亿美元合作悬而未决:供应链、资本路线图与替代架构的工程影响

分析 OpenAI 与 NVIDIA 百亿美元合作意向书迟迟未签署的深层影响,涵盖供应链风险敞口、资本支出路线图调整,以及 Cerebras、Groq 等替代架构的战略性机遇。

当 NVIDIA 首席财务官科莱特・克雷斯在 2025 年 12 月的 UBS 全球技术大会上被问及与 OpenAI 那项创纪录的合作时,她的回答简短却意味深长:"我们尚未完成最终协议,但正在与他们合作。" 这距离两家公司宣布那封价值高达 1000 亿美元、投资至少 10 吉瓦计算系统的意向书已过去整整两个月。华尔街曾将这份意向书视为 AI 基础设施领域的里程碑,分析师预估其可能为 NVIDIA 带来高达 5000 亿美元的收入贡献。然而,协议的悬而未决正在整个 AI 硬件生态系统中激起连锁反应,其影响远超一笔交易的成败本身。

供应链风险敞口的重新评估

对于深度依赖 NVIDIA 供应链的 AI 公司而言,这份未签署的协议暴露了一个根本性的脆弱性:即便是业界最具影响力的两家公司之间的合作,也可能在最后阶段停滞。在传统认知中,NVIDIA 与 OpenAI 的关系牢不可破 —— 后者是前者的最大客户之一,ChatGPT 的训练与推理几乎完全建立在 NVIDIA 的 GPU 之上。然而,意向书签署后的漫长沉默期表明,商业谈判的复杂性远超外界预期。OpenAI 需要为这种不确定性做好准备,其他 AI 企业同样需要审视自身的供应链集中度风险。

供应链风险敞口的扩大主要体现在三个层面。首先是产能分配的焦虑:在协议最终敲定之前,OpenAI 无法确信其在 NVIDIA 优先客户名单中的确切位置。2026 年 NVIDIA 的先进芯片订单总额已达 5000 亿美元,任何新增的大客户都可能触发产能重新分配。其次是价格谈判的筹码弱化:一份尚未落地的协议无法为 OpenAI 提供足够的价格保护,而 NVIDIA 完全有动力在最终谈判中争取更有利的条款。第三是交付时间表的不可预测性:10 吉瓦的计算系统部署涉及数据中心建设、供电系统升级、网络架构改造等一系列基础设施工程,没有最终协议意味着这些项目无法正式启动。

资本支出路线图的连锁调整

NVIDIA 首席财务官克雷斯在上述会议中明确指出,任何最终供应给 OpenAI 的芯片都不会计入公司早前披露的 5000 亿美元订单总额。这意味着这笔潜在交易将是 "增量中的增量",其规模足以将 NVIDIA 的营收推至一个全新的量级。然而,对于 OpenAI 及其投资者而言,资本支出路线图的不确定性构成了更大的挑战。

AI 基础设施的投资决策周期极长。一座配备 10 吉瓦计算能力的数据中心从规划到上线通常需要 18 至 24 个月,涉及选址、环评、供电协议签订、设备采购、服务器部署、网络调试等多个环节。在协议悬而未决的情况下,OpenAI 无法启动这些不可逆的前置投资,这直接导致其推理能力的扩张被迫推迟。更关键的是,AI 模型的迭代速度并不会因此放慢 ——GPT-5 及后续版本的训练需求、o3 及更先进推理模型的部署压力,都在持续挤压着现有的算力储备。

资本支出路线图的调整还体现在风险对冲策略的强化上。既然无法将全部筹码押注于 NVIDIA 一家,OpenAI 必须分散其投资组合。2026 年 1 月,该公司与 Cerebras 签署的超过 100 亿美元协议正是这一战略转向的明证。通过锁定 750 兆瓦的计算能力直至 2028 年,OpenAI 获得了供应链多元化的实质性进展,同时也为未来与 NVIDIA 的谈判增加了议价筹码。

替代架构的战略窗口期

NVIDIA-OpenAI 协议的僵滞为 GPU 之外的其他计算架构打开了一扇关键的战略窗口。Cerebras Systems 是其中最显著的受益者,其晶圆级引擎(Wafer-Scale Engine)代表了一种与 GPU 截然不同的技术路径。Cerebras 的 WSE-3 芯片面积达到 46,225 平方毫米,几乎相当于一个餐盘的大小,配备 44GB SRAM,而传统 GPU 采用的高带宽内存(HBM)在带宽指标上落后近三个数量级。

这种架构差异在推理场景中尤为突出。根据实测数据,Cerebras 的 CS-3 系统在运行 GPT-oss 120B 模型时可实现单用户 3098 token/s 的吞吐量,而使用 NVIDIA GPU 的竞争对手 Together AI 仅能达到 885 token/s。对于正在向代理式 AI(Agentic AI)转型的 OpenAI 而言,推理延迟的降低意味着模型可以执行更长的 "思考" 链条而不会牺牲用户体验。在实时交互与离线批处理之间,毫秒级的响应差异可能决定产品的成败。

Groq 的命运则展示了市场格局的另一种演变路径。2025 年圣诞节前夕,NVIDIA 通过一笔 "收购式招聘"(aquihire)交易获得了 Groq 的学习处理单元技术,收购金额高达 200 亿美元。这笔交易的核心资产并非芯片产能,而是 Groq 的工程团队及其在低延迟推理架构上的技术积累。对于 NVIDIA 而言,Groq 的价值在于消除一个潜在的竞争威胁,同时将其技术整合进 Rubin 及后续 GPU 架构的路线图中。然而,这一整合需要时间,在此期间,Groq 的原有客户和潜在客户不得不重新评估其技术路线。

工程实践层面的应对策略

面对高度不确定的供应格局,AI 工程的实践层面正在发生结构性变化。多云与多架构部署不再是可选项,而是必选项。工程团队需要在模型层面实现架构无关性 —— 通过抽象层屏蔽底层硬件差异,使得同一套代码可以无缝运行于 NVIDIA GPU、AMD 加速器、Cerebras 系统甚至定制 ASIC 之上。这种抽象带来的性能损失通常在可接受范围内,而其带来的灵活性价值则难以量化。

推理工作负载的分离策略同样值得深思。训练与推理对硬件的需求存在显著差异:训练更看重峰值吞吐量和大规模并行能力,推理则在延迟和内存带宽上有更高要求。NVIDIA 的 GB200 NVL72 和 GB300 NVL72 系统针对推理场景进行了深度优化,但 Cerebras 的晶圆级架构在特定推理任务上展现出压倒性优势。成熟的 AI 工程团队应当建立一套工作负载分析框架,根据模型规模、批量大小、延迟要求等因素动态调度计算资源。

监控与预警系统的升级同样不可忽视。在供应链高度不确定的环境下,备件库存、产能预警、价格波动追踪等功能需要被整合进统一的运维平台。当某一供应商的交付出现延迟迹象时,系统应当自动触发替代方案的准备工作,而非等到断供发生后被动应对。

长期格局的深层重塑

NVIDIA-OpenAI 协议的悬而未决可能标志着 AI 硬件生态从 "一家独大" 向 "多元竞合" 演进的分水岭。在这场变革中,没有绝对的输家或赢家 ——NVIDIA 仍然是数据中心 GPU 的领导者,但其市场份额正在被战略性分流;OpenAI 通过多元化的供应商组合获得了更强的议价能力和抗风险韧性;Cerebras、Groq 等挑战者则获得了证明自身技术价值的宝贵机会。

对于整个 AI 行业而言,这种格局演变意味着基础设施层面的竞争将从单纯的性能竞赛转向服务能力、生态完整性与供应链韧性的综合比拼。工程团队需要培养跨架构的适应能力,企业则需要在技术路线图中预留足够的灵活性。当 1000 亿美元的协议都可以在签署后两个月仍未落地时,没有任何一家公司可以承受将鸡蛋放在一个篮子里的风险。

资料来源:NVIDIA CFO Colette Kress 在 UBS 全球技术与 AI 大会发言(2025 年 12 月),Cerebras 与 OpenAI $10B+ 合作新闻(The Register、The Next Platform,2026 年 1 月)。

查看归档