在 GPU 计算领域,NVIDIA CUDA 的生态壁垒被视为整个行业最深的护城河之一。AMD 作为挑战者,其 AI 软件栈 ROCm 的发展路径选择了一条截然不同的道路 —— 不追求一步到位的颠覆,而是在「一步步前进」的务实节奏中逐步建立竞争力。EE Times 近期对 AMD VP AI Software Anush Elangovan 的专访,揭示了这家芯片巨头在平台建设过程中的技术取舍与工程思考。

从「零件散装」到统一技术栈的演进

ROCm 发展初期面临着典型的遗留系统挑战。Elangovan 坦陈,早期的 ROCm 实际上是「一个个零件的集合」—— 为不同 ASIC 提供固件拼凑,缺乏统一的设计理念。这种碎片化状态在 AMD 内部代号「OneROCm」的项目中得到根本性重塑。当前的 ROCm 致力于在 CPU、GPU、FPGA 等不同硬件类型之间建立统一的加速层,尽管部分底层组件仍与硬件强绑定,但所有加速操作都通过 ROCm 栈完成,这为不同 AMD 硬件间的代码可移植性奠定了基础。

这种统一并非简单的接口抽象,而是涉及编译器基础设施的深度重构。AMD 在 MLIR(多级中间表示)上投入了大量资源,这个由 Nod 团队(后被 AMD 收购)持续维护的编译器框架允许将代码重定向到不同硬件类型。Torch.MLIR 项目正是这一策略的具体体现 —— 它让深度学习框架能够在不同加速器之间无缝迁移。

Triton 带来的生态变量

一个值得关注的技术趋势是编程模型的上移。Elangovan 指出,两年前 CUDA 到 HIP 的代码转换曾是主要需求,但如今这个负担已大幅减轻。原因是开发者越来越多地使用更高层的框架,特别是 OpenAI 开源的 Triton。Triton 被称为「GPU 编程的伟大均衡器」—— 开发者编写一次 Triton 内核,即可在 AMD 和 NVIDIA GPU 上运行。AMD 认识到这一趋势的战略价值,派遣核心工程师深度参与 Triton 项目的开发,与 OpenAI 保持紧密协作。

这一技术路线的选择体现了务实的工程判断:在 CUDA 生态已经高度成熟的情况下,强行要求开发者从 CUDA 迁移到 HIP 的成本极高且收效甚微。相反,通过支持 Triton 这样的中间层,AMD 让现有 AI 推理框架(如 vLLM、SGLang)能够以最小改动支持 AMD 硬件。Elangovan 提到,ROCm 团队已经准备了 Triton 内核优化版本,一旦社区出现新的注意力机制变体,能在一到两天内完成针对 AMD 硬件的优化适配。

开发者社区的直接触达

开源策略是 ROCm 生态建设的另一关键维度。ROCm 保持 100% 开源(固件除外),这意味着开发者可以在编译器、运行时等任意层级参与贡献。Elangovan 强调,开源让 ROCm 能够以社区创新速度演进,而非仅依赖 AMD 自身的开发节奏。他将这一理念与 Google Chrome 团队类比 —— 目标是让 ROCm「隐形化」,用户无需关心版本号,使用体验「开箱即用」。

在具体执行层面,AMD 展现出少见的直接沟通姿态。Elangovan 本人在 X 平台(原 Twitter)上监控「ROCm sucks」「AMD software not working」等关键词,逐一回复开发者反馈。2025 年的 GitHub 调查收集了超过 1000 条投诉,一年后全部得到响应或解决。这种「创始人式」的社区运营在大型科技公司中并不常见,但其效果显著 —— 开发者的负面情绪转化为对平台的信任,有开发者表示「喜欢问题解决的方式,让我愿意尝试 AMD」。

路线图的务实节奏

面向未来,AMD 明确了几项具体目标:六周发布周期是近期重点,这对应着企业级软件快速迭代的标准节奏。与此同时,MI450 预计在 2026 年下半年推出,这将是 AMD 数据中心 GPU 的新一代产品。更长远地看,ROCm 团队希望构建一个「未来十年可依赖的平台」—— 开发者无需担忧新硬件出现时的迁移成本。

从战略层面分析,AMD 选择了一条「跟随但不等同」的道路。与其试图在 CUDA 既有优势领域正面对抗,ROCm 重点投资于 Triton、MLIR 等具有生态中立性的技术层,并在开发者体验上做出差异化。这种策略的底层逻辑是:在一个高度依赖网络效应的生态中,务实的小步快跑比激进的宏大叙事更有可能建立长期壁垒。Elangovan 本人将其总结为「锁定方向,一步一步前进」(One step in front of another)—— 这句看似平淡的表述,或许正是对工程实践最准确的概括。


参考资料