Hotdry.
ai-systems

LLM 推理硬件的四大架构研究方向:从内存墙困境到近存计算破局思路

剖析 David Patterson 团队关于 LLM 推理硬件的研究方向,聚焦内存带宽、容量与互连延迟三大瓶颈,探讨高带宽闪存、近存计算、3D 堆叠与低延迟互连的工程化路径。

大语言模型的推理正在成为整个 AI 产业的核心痛点。当业界将目光聚焦于模型参数规模与训练效率时,一个更深层次的硬件危机正在浮现:推理成本而非训练成本,正在决定 AI 服务的经济可行性。David Patterson 与合作者在近期发表的研究论文中系统性地揭示了这一困境,并提出了四个具有明确工程化潜力的架构研究方向。

从计算受限到内存受限:范式转变的根本原因

理解 LLM 推理硬件挑战的关键,在于认识到推理与训练的本质差异。训练过程可以通过数据并行与模型并行充分挖掘计算资源的潜力,本质上是计算密集型任务。然而,推理的核心是自回归解码阶段,这一阶段只能顺序生成 token,每生成一个 token 都必须访问完整的模型权重和持续增长的 KV 缓存。这种固有的串行特性使得推理过程更像是内存密集型任务,而非计算密集型任务。

当前主流的 AI 加速器 —— 无论是 GPU 还是 TPU—— 在设计之初都是以训练为核心目标。这些芯片拥有惊人的浮点运算能力,但内存子系统却是为训练场景优化的。当同样的硬件被用于推理时,计算单元往往处于等待数据的状态,内存带宽成为实际瓶颈。更令人担忧的是,高带宽内存的单位成本和单位带宽成本持续攀升,而传统 DRAM 的扩展速度正在放缓,内存墙问题正在以前所未有的速度恶化。

近期 AI 技术的几个重要趋势进一步加剧了这一困境。混合专家模型(MoE)将模型划分为数十甚至数百个专家模块并选择性激活,DeepSeekV3 采用的专家数量达到 256 个,这种稀疏性在训练阶段降低了计算成本,却在推理阶段带来了更大的内存占用和通信开销。推理模型引入的「思考」机制虽然在输出质量上取得突破,但产生的长序列思维 token 大幅增加了内存压力。多模态能力的普及意味着模型需要处理图像、音频、视频等比纯文本大得多的数据量。长上下文窗口和检索增强生成(RAG)技术虽然提升了模型能力,却也使推理的资源需求成倍增长。

高带宽闪存:突破内存容量瓶颈的务实选择

论文提出的第一个研究方向是高带宽闪存(High Bandwidth Flash),其核心目标是以接近 HBM 的带宽提供十倍于 HBM 的容量。当前数据中心面临着严峻的内存容量约束:一个拥有数千亿参数的模型可能需要数 TB 的存储空间来容纳权重和 KV 缓存,而单卡 HBM 容量通常仅为几十 GB。这意味着模型必须分布在多个芯片甚至多个服务器上,随之而来的是复杂的调度和通信开销。

高带宽闪存方案的本质是在保持足够带宽的前提下,用容量更大、成本更低的闪存替代部分 DRAM 功能。这里的关键技术挑战在于如何让闪存的带宽接近 DRAM 的水平。方案设想通过宽总线接口和先进封装技术,将闪存带宽提升至能够支撑推理需求的水平。如果这一设想得以实现,单机柜可部署的模型规模将大幅提升,推理服务的单位成本有望显著下降。

从工程实现角度评估,高带宽闪存方案的优势在于其技术成熟度相对较高。闪存制造工艺已经非常成熟,产能充足,成本曲线可预测。然而,要达到推理所需的带宽水平,需要在接口设计和系统架构层面进行重大创新。目前已有的尝试表明,通过 chiplet 架构和先进封装技术,闪存带宽可以提升至接近 DRAM 水平的数倍,但距离支撑千亿参数模型推理仍有差距。

近存计算与三维堆叠:内存带宽的极限突破

论文关注的另外两个研究方向 —— 近存计算(Processing-Near-Memory)和三维内存逻辑堆叠 —— 都指向同一个目标:大幅提升内存带宽。这两种技术的区别在于实现方式和成熟度,但核心思路一致,都是为了消除传统冯诺依曼架构中计算单元与内存单元之间的数据传输瓶颈。

近存计算的概念相对直接:将处理能力集成到内存芯片内部或非常靠近内存的位置,使数据在被使用时就能完成计算,避免数据在内存与处理器之间的频繁移动。对于 LLM 推理而言,这种架构特别适合处理 KV 缓存的访问模式,因为注意力机制中的许多操作本质上是内存访问密集型计算。通过在内存控制器或内存模块中嵌入专用的注意力计算单元,可以大幅减少数据搬运量。

三维堆叠技术提供了另一种解决思路。通过硅通孔(TSV)技术,将多层 DRAM 芯片与逻辑芯片紧密堆叠,可以实现远超传统平面架构的内存带宽。HBM 已经是这一技术路线的商业化实现,而论文提出的方向是进一步提升堆叠层数、扩大每层容量、优化逻辑芯片功能。三维堆叠的带宽优势在推理场景中具有巨大潜力,特别是在需要频繁随机访问大量参数的 Decode 阶段。

从工艺和工程实现角度看,三维堆叠面临的主要挑战是散热和良率。多层堆叠产生的热量难以有效导出,而任何一层出现缺陷都可能导致整颗芯片报废。这些因素使得三维堆叠芯片的成本居高不下,限制了其大规模部署。但随着散热技术和制造工艺的持续进步,这些挑战正在逐步缓解。

低延迟互连:多芯片系统的通信优化

论文提出的第四个方向是低延迟互连,这直接针对大规模推理系统中的芯片间通信问题。现代大模型的参数规模远超单颗芯片的承载能力,模型并行成为必然选择。在模型并行策略下,每个芯片负责模型的一部分,每生成一个 token 都需要进行跨芯片的参数和中间结果传递。

论文特别指出,对于 LLM 推理而言,互连延迟而非带宽往往是更关键的瓶颈。这一结论源于推理通信模式的特殊性:推理过程中的跨芯片通信是小消息、高频率的,每一次 token 生成都需要多次芯片间同步。与训练场景中的大批量数据传输不同,推理场景对延迟极为敏感 —— 用户感知的响应时间直接取决于跨芯片通信的效率。

低延迟互连技术的研究方向包括优化协议栈、减少转发层级、采用更先进的 SerDes 技术等。理想状态下,跨芯片通信的延迟应该接近芯片内部寄存器访问的延迟水平。目前业界的实践表明,通过定制化互连设计和精细的系统级优化,可以将跨芯片通信延迟降低至传统方案的数分之一,但距离理想目标仍有差距。

移动端部署:不同约束下的架构权衡

论文还讨论了上述架构研究方向对移动设备的适用性。与数据中心场景不同,移动设备面临更加严格的功耗和散热约束,这使得技术路线的优先级排序有所不同。对于移动设备而言,能效比是首要考量因素,延迟敏感性也更高 —— 用户无法接受手机在进行 AI 对话时出现明显的卡顿或过热。

高带宽闪存在移动场景中的价值在于其相比 DRAM 更低的功耗,这有助于延长电池续航。然而,移动设备对延迟的要求比数据中心更为严格,闪存的访问延迟可能成为不可接受的瓶颈。近存计算和三维堆叠技术在移动场景中同样面临散热挑战,但芯片尺寸的缩小使得这些技术更容易实现足够的冷却效果。低延迟互连的重要性在移动场景中相对降低,因为移动设备的 AI 推理通常在单芯片上完成,不需要复杂的跨芯片通信。

工程化落地的参数框架

基于上述分析,我们可以提炼出几个可用于指导实际系统设计的参数框架。在内存容量规划方面,对于千亿参数级别的模型,单节点应规划 2-4TB 的高带宽存储空间,其中 DRAM 用于存放最活跃的 KV 缓存,闪存用于存放模型权重。在内存带宽需求方面,支撑单用户实时交互推理的节点应具备不低于 10TB/s 的内存聚合带宽,这一数值会随着并发用户数的增加而线性增长。

在互连延迟控制方面,跨芯片通信延迟应控制在 100ns 以内,理想目标是 50ns 以内。在能效约束方面,移动端推理芯片应将每焦耳推理次数作为核心优化目标,数据中心则需要在绝对性能和性能功耗比之间寻找平衡点。这些参数并非固定不变的最优值,而是当前技术条件下的合理参考基准。

研究与产业的交汇点

论文的另一个重要价值在于揭示了学术研究与产业实践之间日益扩大的鸿沟。David Patterson 指出,1976 年时约有 40% 的计算机架构会议论文来自工业界,而到 2025 年,这一比例已降至不足 4%。这种脱节意味着许多产业界面临的实际挑战未能得到学术界的充分关注,而学术界提出的创新方案也难以及时转化为产业实践。

LLM 推理硬件恰好处于这一交汇点的核心位置。产业界面临着紧迫的部署压力,需要在现有技术框架内持续优化;学术界则需要提出具有前瞻性的架构方案,为未来的技术突破指明方向。论文提出的四个研究方向正是这种产学研协作的尝试:它们既不是天马行空的概念设想,也不是琐碎的工程调优,而是基于对产业趋势和物理规律深刻理解的中期技术路线图。

未来五到八年,推理芯片的年销售额预计将增长四到六倍,这一市场规模的快速扩张为硬件创新提供了强大的驱动力。当内存带宽和容量的增长速度开始落后于模型规模的增长速度时,传统的硬件架构优化路径已经难以持续。唯有在架构层面进行根本性的创新,才能打破当前的瓶颈,推动 LLM 推理向更高效、更经济、更普及的方向发展。

资料来源:arXiv:2601.05047 "Challenges and Research Directions for Large Language Model Inference Hardware",Xiaoyu Ma & David Patterson,2026 年 1 月。

查看归档