LLM 推理硬件的内存墙挑战与四大架构演进路径

大语言模型推理正面临一场静默的硬件危机。与训练阶段追求极致算力不同，推理的核心瓶颈已从计算能力转向内存带宽与数据移动效率。这一转变由 Transformer 的自回归解码机制决定，却在近期的模型演进中被进一步放大：MoE 架构引入数百位专家、推理模型生成冗长思维链、多模态与长上下文普及，所有这些趋势都在无情地吞噬内存容量与带宽资源。David Patterson 与 Xiaoyu Ma 在近期发表的论文中系统化地阐述了这一挑战，并提出了四条具有工程可行性的架构演进方向。

推理工作负载的本质变化

理解内存墙问题需要首先厘清推理与训练的根本差异。训练过程可以高度并行化，利用大规模数据批次实现计算饱和；而推理的解码阶段必须逐 token 顺序生成，每生成一个 token 都需重新加载完整的模型权重与 Key-Value 缓存。这意味着推理不是计算密集型任务，而是典型的内存密集型任务。现代 GPU 的理论算力可能远超实际需求，但内存带宽的物理限制使得大量计算单元处于等待数据的空闲状态。

这种内存受限特性在模型规模增长与架构演进中持续恶化。Mixture of Experts 架构虽然通过稀疏激活控制了训练成本，却将推理时的参数量推高至数千亿级别，DeepSeekV3 甚至采用 256 位专家的极端配置。推理模型为提升质量而生成的思维过程会产生超长 token 序列，显著增加 Key-Value 缓存的内存占用。多模态模型处理图像与视频数据时，数据量级更是纯文本的数十倍。长上下文窗口与检索增强生成进一步放大了内存压力，因为用户提供的检索文档需要与模型权重一同驻留在高速内存中。

内存带宽墙的量化表征

从系统层面观察，内存墙问题表现为算力利用率与内存带宽之间的严重失衡。以典型的大模型推理场景为例，每次解码迭代需要将数十 GB 的权重数据从高带宽内存传输到计算单元，而实际计算本身仅消耗少量时间。当模型参数量突破万亿级别时，即便是最先进的 HBM 内存也难以提供足够的带宽来维持计算单元的高效运转。业界将这种现象形象地称为「内存墙」—— 计算性能的增长受限于内存系统的发展速度。

这堵墙的经济影响同样显著。推理成本在整体 AI 运营支出中占据主导地位，而内存子系统往往贡献了主要的硬件成本与能耗。数据中心运营者发现，单纯通过增加计算芯片数量来提升推理吞吐量存在明显的边际效益递减，因为内存带宽往往成为系统扩展的瓶颈。因此，面向推理场景的硬件优化必须将内存效率置于设计的核心位置，而非延续传统训练芯片的纯算力思路。

架构演进路径一：高带宽闪存方案

第一条架构路径聚焦于存储层次的革新。高带宽闪存技术试图将 NAND Flash 的高密度与低成本优势与接近 HBM 的带宽性能相结合，通过在存储节点附近部署大量并行通道来实现 10 倍于传统闪存的带宽水平。这一方案的核心价值在于突破 HBM 容量受限的物理极限 —— 当前 HBM 单芯片容量通常在 20GB 到 64GB 之间，而高密度模型的权重可能需要数百 GB 乃至 TB 级别的存储空间。

工程实现上，高带宽闪存方案需要在存储控制器层面进行深度定制。传统的闪存接口延迟较高，不适合直接替换 DRAM/HBM 的角色；因此该方案更适合作为分层存储架构中的第二级缓存，存放访问频率相对较低但仍需快速加载的数据块。通过智能的预取策略与数据放置算法，可以将热点权重保持在近端高速存储中，而将冷数据下沉到高带宽闪存。这种架构在移动设备场景中具有特殊价值，因为移动端对功耗与芯片面积的敏感度更高，而闪存的能效优势明显优于 DRAM。

架构演进路径二与三：近存计算与 3D 堆叠

第二与第三条路径从计算与存储的物理布局入手，通过缩短数据移动距离来提升有效带宽。近存计算将专用推理加速器集成到内存芯片内部或紧邻内存的位置，使计算操作能够直接访问存储阵列而无需通过传统总线传输数据。这种架构消除了内存访问的物理延迟与能耗开销，能够释放传统系统中被数据移动所消耗的大量带宽资源。

3D 内存 - 逻辑堆叠将这一理念推向更极致的形态。通过硅通孔技术与先进封装工艺，可以在单个封装内垂直堆叠多层存储芯片与计算芯片，实现极高的互连密度与极短的数据通路。这种架构特别适合处理推理过程中的大规模矩阵运算，因为权重数据可以在本地完成计算而无需离开堆叠结构。对于数据中心部署场景，3D 堆叠方案能够显著提升单机柜的推理密度，同时降低整体系统的能耗与散热压力。

两条路径的工程挑战主要集中于散热设计与良率控制。计算单元与高密度存储的紧耦合会产生集中的热量分布，需要创新的封装级散热方案；而 3D 堆叠的制造复杂度较高，单一缺陷可能导致整块芯片失效。业界正通过基板级集成、混合键合等工艺创新来缓解这些挑战，预计在未来两到三年内将看到更多采用近存与 3D 堆叠架构的推理芯片进入市场。

架构演进路径四：低延迟互连技术

第四条路径着眼于芯片间与节点间的高速互连。在大规模推理部署中，单一芯片往往无法容纳完整模型，需要通过高效的数据传输来实现分布式计算。传统的 PCIe 接口与以太网延迟较高，难以支撑推理过程中的细粒度数据交换；而低延迟互连技术通过定制协议与物理层优化，能够将端到端延迟压缩至微秒级别，使得分布式推理的通信开销大幅降低。

低延迟互连在推理场景中的作用不仅体现在速度层面，更影响整体系统的效率表现。当推理请求需要在多个芯片间频繁交换中间结果时，互连延迟会直接转化为整体响应延迟的组成部分。通过采用片上网络优化、RDMA 直接内存访问等技术，可以实现芯片间的无缝数据流转，使分布式推理的扩展效率接近线性水平。这一方向对于追求高吞吐量的云服务提供商尤为重要，因为延迟的微小改善在大规模请求量下会累积出显著的成本收益差异。

移动端部署的特别考量

论文同时讨论了上述架构方案在移动设备上的适用性问题。移动场景对功耗与芯片面积的约束更为严格，高带宽闪存方案因其相对较低的静态功耗而具备优势；近存计算可以有效延长电池续航时间，因为数据移动的能耗被大幅削减；3D 堆叠虽然在数据中心场景表现优异，但在寸土寸金的移动设备中面临空间挑战。低延迟互连在移动端的需求相对温和，因为移动设备的推理通常在单一芯片上完成，无需复杂的分布式协调。

移动端推理的另一个特殊之处在于其工作负载的碎片化特征。用户的交互请求可能分散在全天各个时段，芯片需要在极低功耗的待机状态与瞬时的高性能响应之间快速切换。这对硬件架构提出了动态功耗管理的要求 —— 上述四条架构路径在设计中都需要考虑多级功耗状态的切换机制，以在性能需求与电池续航之间取得平衡。

工程实践的权衡与建议

对于正在规划推理基础设施的团队而言，论文提供的四条路径并非相互排斥，而是可以在不同层次与场景下组合使用。在内存层次设计中，高带宽闪存可以作为 HBM 的容量扩展层，配合近存计算单元处理热点数据；在节点内部采用 3D 堆叠技术实现高密度存储与计算整合；在数据中心规模通过低延迟互连实现高效的多节点协同。

实际决策需要综合考虑模型规模、部署场景与成本约束。对于参数量在百亿级别的主流模型，传统的 HBM 方案配合优化的内存调度策略可能已足够；对于千亿乃至万亿级别的超大模型，则需要认真评估高带宽闪存或近存计算的引入时机。在分布式部署场景下，互连技术的选择直接影响系统的扩展效率与运营成本，值得在架构设计阶段进行充分的技术选型评估。

资料来源：Ma, Xiaoyu, and David Patterson. "Challenges and Research Directions for Large Language Model Inference Hardware." arXiv preprint arXiv:2601.05047 (2026).