Hotdry.

Article

Intel Z-Angle 内存架构解析:信号完整性挑战与 AI 推理场景的带宽延迟权衡

深入分析 Intel Z-Angle Memory 的对角互连拓扑如何解决三维堆叠信号完整性问题,评估其在 AI 推理场景下相比 HBM 的容量、带宽与功耗优化路径。

2026-05-03systems

在 AI 计算从训练向推理大规模迁移的背景下,内存带宽与容量正成为制约推理效率的核心瓶颈。传统高带宽内存(HBM)虽已在数据中心广泛部署,但其基于垂直硅通孔(TSV)的堆叠架构在容量扩展、热管理和信号完整性方面面临物理极限。Intel 于 2026 年初公布的 Z-Angle Memory(以下简称 ZAM)技术,通过重新设计互连拓扑,试图在下一代 AI 推理场景中实现对 HBM 的全面超越。本文将从信号完整性的工程挑战出发,结合 AI 推理负载的带宽 - 延迟特征,分析 ZAM 的技术可行性与优化空间。

一、Z-Angle 架构的核心创新:从垂直 TSV 到对角互连

理解 ZAM 的技术价值,需要首先回顾三维堆叠内存的演进脉络。自 HBM 推出以来,垂直 TSV 一直是 DRAM 堆叠层间互连的主流方案。垂直 TSV 的优势在于信号路径短、寄生电感电容可控,但在多层堆叠(8 层以上)场景下,TSV 阵列的密度受限,热量在垂直方向上难以有效散逸,同时密集的 TSV 布局加剧了相邻通道间的串扰问题。这些物理约束直接限制了 HBM 在容量和功耗方面的进一步扩展。

ZAM 的核心突破在于将对角互连(diagonal interconnect)引入三维堆叠结构。与传统的垂直 TSV 不同,对角互连以一定角度斜穿 DRAM 硅片层,从而在有限的芯片面积内实现更灵活的布线规划。根据 Intel 披露的技术路线,ZAM 采用增强型嵌入式多芯片互连桥(EMIB)封装结合下一代直接键合(NGDB)技术,能够在更高堆叠层数下维持良率并降低单位比特传输功耗。行业分析预计,ZAM 的单堆栈容量可达当前 HBM 的 2 至 3 倍,而功耗可降低 40% 至 50%。

二、信号完整性的多维工程挑战

对角互连虽然在拓扑层面提供了更大的布线自由度,但其在高频信号传输场景下面临的信号完整性问题同样不容忽视。首先是串扰与电磁耦合问题。尽管对角走线可以减少相邻信号线的平行耦合长度,但 DRAM 阵列的高密度特性决定了信号线间距难以显著放宽。在 2 GHz 以上的时钟频率下,邻近信号线间的容性和感性耦合仍可能引发眼图闭合与位翻转错误,这要求在芯片设计阶段加入专用的屏蔽线和间距优化算法。

其次是热 - 机械应力耦合问题。三维堆叠结构中,计算 die 与存储 die 之间的热膨胀系数差异会在温度循环载荷下产生累积应力。对角互连由于走线方向与硅晶格取向存在角度关系,其机械可靠性验证比垂直 TSV 更为复杂。Intel 强调 ZAM 在热管理方面进行了特殊优化,但在大规模量产前,需要通过长期热循环测试和老化模型来确认应力不会导致互连开路或阻值漂移。

第三是延迟与带宽的权衡问题。对角走线的几何长度天然大于垂直 TSV,这意味着单跳信号的传输延迟会增加。然而,ZAM 通过缩短平均访问路径和优化层间路由逻辑,可以在系统层面弥补这一缺陷。在实际 AI 推理负载中,内存访问模式以大块连续读取为主,对角互连引入的额外延迟可通过并行化访问和预取策略有效隐藏。

三、制程协同优化的关键路径

ZAM 的产业化落地高度依赖先进封装与制程工艺的协同进化。EMIB 技术允许在不同工艺节点制造的芯片(compute die 与 memory die)通过硅桥实现高密度互连,这为 ZAM 采用存储 die 与逻辑 die 分离优化的设计提供了灵活性。具体而言,存储 die 可使用成熟的 DRAM 制程以降低成本,而 compute die 则可采用更先进的节点以提升信号处理速度。NGDB 键合技术则实现了 die 间的超细间距互连(pitch 可达数微米级),这对维持对角互连的信号完整性至关重要。

从供应链角度,Intel 与 SoftBank 旗下的 SAIMEMORY 建立了联合研发合作,目标是在 2027 年前后推出 ZAM 原型,并在 2029 至 2030 年实现商业化部署。值得关注的是,三星同期也在推进 zHBM 技术路线,两者在 2030 年前后的竞争格局将深刻影响 AI 数据中心内存采购的成本结构。

四、AI 推理场景下的带宽 - 延迟评估

在 AI 推理场景中,内存子系统的性能往往比原始算力更能决定整体吞吐量。以大语言模型推理为例,KV 缓存的读取带宽和 Attention 机制的访存延迟直接决定了首 token 延迟(TTFT)和 token 间延迟(ITL)。当模型规模超过数百亿参数时,HBM 带宽不足会导致计算单元大量空闲,形成 “内存墙” 问题。

ZAM 的高带宽特性(预计可达数 TB/s 量级)有望显著缓解这一瓶颈。其容量优势使得更大的模型权重和中间结果可以完全驻留在 HBM 级别的内存中,减少对外部 DDR 或 SSD 的数据交换频率。根据行业基准分析,若 ZAM 成功实现宣称的 2 至 3 倍容量提升和近半功耗降低,则在同等功耗预算下,AI 推理服务器可支持更大 batch size 或更复杂的模型结构,从而提升每瓦推理效率。

然而,ZAM 的延迟特性需要在实际部署中仔细验证。对于实时交互式推理场景(如在线问答、语音助手),对角互连引入的额外延迟可能影响用户体验。建议在系统设计阶段预留可调节的批处理流水线,并通过硬件加速器层的预取和调度策略来隐藏访存延迟。

五、工程落地的关键参数与监控建议

对于计划评估或采用 ZAM 的系统架构师,以下参数和监控点值得关注。在带宽评估方面,应关注 ZAM 的有效带宽与带宽 - per-watt 指标,并与主流 HBM3e 进行对比测试。在功耗监控方面,需建立基于实时功耗传感器的热管理模型,确保在高负载推理场景下芯片结温不超过设计阈值。在信号完整性验证方面,建议在板级设计阶段加入眼图测试和串扰分析,确保在目标频率下误码率(BER)低于 10^-12。

综合来看,Z-Angle Memory 代表了三维堆叠内存从 “垂直堆叠” 向 “拓扑优化” 演进的重要方向。其核心价值在于突破 HBM 的物理极限,为 AI 推理提供更高的容量和能效比。但从原型到大规模商用,还需跨越信号完整性、制造成本和生态适配等多重门槛。唯有在工程实践中持续迭代优化,ZAM 方能真正成为下一代 AI 数据中心的内存基础设施。


参考资料

  • Intel 官方 Foveros Direct 3D 技术文档与 ZAM 披露信息(2025-2026)
  • Tom's Hardware 关于 Intel Z-Angle Memory 技术报道(2026 年 5 月)

systems