Hotdry.
ai-systems

Furiosa RNGD AI芯片:如何实现相比H100的3.5倍能效比

深入分析Furiosa RNGD基于TCP架构的内存带宽优化、计算单元调度策略,及其在15kW功率预算下相比Nvidia H100实现3.5倍tokens/s生成的工程原理。

引言:AI 推理的能效挑战与架构革新

随着大语言模型部署规模的指数级增长,数据中心能耗已成为制约 AI 规模化应用的关键瓶颈。根据 Furiosa AI 公布的数据,在 15kW 机架功率预算下,5 台 RNGD 服务器能够生成 49,412 tokens/s,而单台 H100 SXM 系统仅能生成 14,095 tokens/s—— 这意味着 RNGD 实现了3.5 倍的性能能效比。这一数字背后,是 Furiosa 在芯片架构层面的根本性创新:从 GPU 的通用计算范式转向专门为张量收缩优化的 TCP(Tensor Contraction Processor)架构。

RNGD 的热设计功耗(TDP)仅为 150W,相比 H100 的 700W 降低了 78%,但更关键的是其计算效率的提升。这种能效优势不仅影响运营成本,更决定了 AI 服务能否在现有电力基础设施限制下大规模部署。本文将深入解析 RNGD 实现这一能效突破的三个核心维度:内存带宽优化策略、计算单元调度机制,以及编译器驱动的整体优化框架。

架构哲学:TCP 与 GPU 的根本差异

GPU 架构的局限性

传统 GPU 架构为通用并行计算设计,其核心特征包括:

  • 动态资源分配:计算单元通过线程调度动态分配,难以精确预测优化效果
  • 分层内存体系:L1/L2 缓存、共享内存、全局内存的多级结构
  • 数据移动开销:中间结果需要在不同内存层级间频繁搬运

以 H100 为例,其拥有约 30MB 共享内存和 50MB L2 缓存。在处理 Llama 2 7B 模型的前馈网络时,中间激活张量(4,096 输入 tokens × 11,008 扩展维度)无法完全容纳在共享内存中,必须存储在 L2 缓存甚至需要通过 HBM 访问的 DRAM 中。这种数据移动不仅消耗带宽,更增加了延迟和能耗。

TCP 架构的设计原则

Furiosa 的 TCP 架构采用完全不同的设计哲学:

  • 张量收缩作为原语:将 AI 计算抽象为张量收缩操作,硬件直接支持 einsum 原语
  • 显式调度:计算调度通过硬件结构显式定义,而非动态线程调度
  • 确定性执行:资源分配和时序可预测,便于编译器优化

RNGD 芯片包含 8 个相同的处理元素,每个元素拥有 64 个 "切片"。每个切片包含计算流水线和 SRAM,用于存储正在处理的张量分区。这种结构允许编译器在编译时确定最优的数据布局和计算调度,避免了运行时的不确定性。

内存带宽优化:256MB 片上 SRAM 的数据重用策略

片上存储容量的数量级优势

RNGD 最显著的特征是其256MB 片上 SRAM,这比 H100 的 80MB 缓存(30MB 共享 + 50MB L2)大了 3 倍以上。更重要的是,这 256MB 是统一寻址的 SRAM,而非分层的缓存体系。

在 Llama 2 7B 的推理过程中,RNGD 的片上内存可以:

  1. 存储所有中间张量:前馈网络的中间激活结果完全驻留在片上
  2. 预取下一层权重:在计算当前层时,下一层的权重已预取到片上
  3. 避免数据回写:中间结果直接在片上用于下一层计算,无需写回外部内存

带宽优化机制

RNGD 实现了 384TB/s 的片上带宽,这一数字是外部 HBM3 带宽(1.5TB/s)的 256 倍。高带宽通过以下机制实现:

数据多播机制:数据从 SRAM 读取一次后,可以通过 fetch 网络多播到多个计算单元的操作单元。这意味着单个数据读取可以服务多个并行计算,显著减少 SRAM 访问次数。

编译器驱动的数据布局优化:RNGD 编译器会分析整个计算图,寻找最小化数据移动的 "策略"。编译器考虑的因素包括:

  • 张量维度的映射关系
  • 计算单元间的数据依赖
  • 内存访问的时空局部性

对比分析:对于典型的 transformer 层,GPU 需要为每个操作加载权重和激活数据,而 RNGD 只需在层开始时加载一次权重,后续计算全部在片上完成。根据 Furiosa 的技术论文,这种优化可以将内存带宽需求降低一个数量级。

计算单元调度:显式调度与数据多播

处理元素与切片架构

RNGD 的 8 个处理元素可以独立工作,也可以根据计算需求 "融合" 在一起。每个处理元素的 64 个切片构成了细粒度的并行计算单元:

  • 切片级并行:每个切片处理张量的一个分区
  • 流水线并行:切片间通过流水线实现计算重叠
  • 数据并行:相同操作在不同数据分区上并行执行

显式调度优势

与 GPU 的线程调度器不同,RNGD 采用显式调度:

  1. 确定性时序:编译器可以精确预测每个操作的开始和结束时间
  2. 资源预留:计算单元、内存带宽等资源在编译时分配
  3. 无竞争开销:避免了动态调度带来的竞争和上下文切换开销

这种确定性使得编译器可以进行更深层次的优化,包括:

  • 计算与通信重叠:精确安排数据传输与计算的时间关系
  • 功耗门控:在空闲时段关闭未使用的电路模块
  • 电压频率调节:根据计算负载动态调整工作点

数据多播的实际效益

数据多播机制在 attention 计算中尤其有效。在计算 QK^T 矩阵乘法时,相同的 K 向量需要与多个 Q 向量计算点积。RNGD 可以将 K 向量一次读取后多播到所有相关的计算单元,而 GPU 需要为每个 Q 向量单独加载 K 向量或依赖缓存命中。

工程落地:编译器优化与部署参数

编译器优化框架

RNGD 的软件栈包括专门的编译器,其优化过程分为三个阶段:

1. 计算图分析阶段

  • 识别张量收缩模式
  • 构建数据依赖图
  • 估算内存占用和带宽需求

2. 策略搜索阶段 编译器搜索最优的 "策略",包括:

  • 张量维度的切片方案
  • 计算单元分配
  • 数据布局和移动计划

3. 代码生成阶段

  • 生成针对 RNGD 硬件的机器代码
  • 插入同步和通信指令
  • 优化指令流水线

关键部署参数

基于实际部署经验,以下是优化 RNGD 性能的关键参数:

批处理大小调优

  • 小批量(1-4):适合低延迟场景,利用片上内存优势
  • 中等批量(8-16):平衡吞吐和延迟
  • 大批量(32+):最大化吞吐,但增加延迟

模型量化策略

  • FP8 量化:RNGD 原生支持 FP8,相比 FP16 节省 50% 内存带宽
  • 混合精度:关键层保持较高精度,非关键层使用低精度
  • 动态量化:根据激活范围动态调整量化参数

功率管理配置

  • 固定频率模式:确定性性能,适合生产环境
  • 动态调频:根据负载调整,最大化能效
  • 温度感知调度:避免热点,维持稳定性能

监控与调优指标

部署 RNGD 系统时,应监控以下关键指标:

  1. 内存带宽利用率

    • 目标:保持 HBM3 带宽利用率在 60-80%
    • 过高:可能成为瓶颈,需要优化数据重用
    • 过低:计算受限,可增加批处理大小
  2. 计算单元利用率

    • 目标:平均利用率 > 70%
    • 监控各处理元素的负载均衡
  3. 能效指标

    • tokens/Joule:每焦耳能量生成的 tokens 数
    • 功率曲线:随时间变化的功率消耗

风险与限制

软件生态成熟度

RNGD 的软件生态相比 Nvidia CUDA 仍处于早期阶段:

  • 模型支持范围有限,主要针对主流 LLM
  • 编译器优化需要模型特定的调优
  • 调试工具和性能分析器不够完善

适用场景限制

  • 推理优化:RNGD 主要针对推理场景设计,训练性能未经验证
  • 模型架构依赖:对非 transformer 架构的优化效果可能有限
  • 动态计算图:对动态形状和计算图的支持不如 GPU 灵活

部署复杂性

  • 冷却要求:虽然 TDP 较低,但高密度部署仍需考虑散热
  • 电源设计:需要适应 150W TDP 的电源分配
  • 系统集成:与现有基础设施的兼容性需要验证

结论:能效优先的 AI 芯片设计趋势

Furiosa RNGD 通过 TCP 架构实现的 3.5 倍能效优势,标志着 AI 芯片设计从 "性能优先" 向 "能效优先" 的范式转变。这种转变的背后是深刻的产业洞察:随着 AI 计算规模的增长,能源消耗已成为比单纯计算性能更关键的制约因素。

RNGD 的三个核心创新 —— 大容量片上 SRAM、显式计算调度、编译器驱动的整体优化 —— 为解决内存墙问题提供了新思路。256MB 统一 SRAM 不仅提供了存储容量,更重要的是实现了确定性的数据访问模式,使编译器能够进行全局优化。

对于工程团队而言,部署 RNGD 系统需要:

  1. 理解架构特性:充分利用片上内存和数据重用
  2. 优化编译器参数:针对具体模型寻找最优策略
  3. 监控能效指标:以 tokens/Joule 为核心优化目标

展望未来,随着 AI 推理工作负载的持续增长,能效优化的专用芯片将在数据中心中占据越来越重要的位置。RNGD 的成功表明,通过架构创新和软件协同设计,完全可以在保持高性能的同时大幅降低能耗,为可持续的 AI 发展提供硬件基础。

资料来源

  1. Furiosa AI 官方博客:RNGD preview: The world's most efficient AI chip for LLM inference
  2. ISCA 2024 论文:TCP: A Tensor Contraction Processor for AI Workloads
  3. Furiosa RNGD 服务器数据表:15kW 功率预算下的性能对比数据
查看归档