Hotdry.

Article

SANA-WM:2.6B 参数分布式 Diffusion Transformer 实现消费级 GPU 分钟级 720p 视频生成

解析 SANA-WM 如何用混合线性注意力、双分支相机控制和显存分片策略,在单张 GPU 上生成 1 分钟 720p 视频,训练成本仅为 64 H100 × 15 天。

2026-05-16ai-systems

长视频生成一直是世界模型(World Model)领域的核心挑战。传统方案往往依赖数十亿甚至上百亿参数的大模型,且需要多卡并行推理才能生成长达一分钟的视频。NVIDIA 最新开源的 SANA-WM 给出了不同的答案:仅用 2.6B 参数,在单张消费级 GPU 上即可生成 720p、60 秒的高质量视频,同时保持对 6-DoF 相机轨迹的精确控制。

效率优先的设计理念

SANA-WM 的核心命题是:能否在有限计算资源下,原生训练出支持分钟级生成的世界模型?团队选择了一条效率优先的技术路线。整个模型仅需约 21.3 万条公开视频片段(含 metric-scale 位姿标注),在 64 张 H100 上训练 15 天即可完成。相比之下,同类开源基线如 LingBot-World 需要 14B+14B 的双模型架构,HY-WorldPlay 也需要 8B 参数配合 8 卡推理。

在推理端,SANA-WM 提供三种单 GPU 部署方案:双向生成器(高质量离线合成)、块因果自回归生成器(顺序 rollout)、以及蒸馏后的少步自回归生成器(快速部署)。最激进的优化版本配合 NVFP4 量化,在 RTX 5090 上生成 60 秒 720p 视频仅需 34 秒去噪时间,吞吐量达到每小时 24 条视频,比同类 480p 基线快 36 倍。

混合线性注意力:长上下文的内存破局点

分钟级视频生成的首要瓶颈是显存。以 720p 分辨率、16fps、60 秒时长计算,模型需要处理近 960 帧的时序上下文。传统 softmax attention 的 KV cache 随序列长度线性增长,在 60 秒尺度上很快就会 OOM。

SANA-WM 的解决方案是 Hybrid Linear Attention 架构。主体采用 20 层 Transformer,其中 15 层使用 frame-wise Gated DeltaNet(GDN),仅在第 3、7、11、15、19 层保留标准 softmax attention 用于精确长程召回。

GDN 的核心优势在于其递归状态表示。与传统线性注意力累积无界状态不同,GDN 引入衰减门(decay gate)和 delta 规则修正:

S_t = S_{t-1} · M_t + U_t
M_t = γ_t · (I - K̂_t · β_t · K̂_t^⊤)
U_t = V_t · β_t · K̂_t^⊤

其中 S_t 是 D×D 的帧级递归状态,γ_t 控制历史信息衰减,β_t 是逐 token 更新门。关键在于 GDN 按帧扫描而非按 token 扫描 —— 每帧的所有空间 token 共享同一个状态更新,将递归复杂度从 O (T×S) 降至 O (T)。

为保证数值稳定性,团队发现必须对 key 进行 1/√(D・S) 的缩放。实验显示,缺少此项缩放的基线在训练初期就会出现梯度爆炸(第 16 步 NaN),而正确缩放的版本可稳定收敛。

显存分片:Context-Parallel 的工程实现

在 64 卡训练 961 帧(60 秒)序列时,SANA-WM 采用 Context-Parallel(CP)策略沿时间维度分片。GDN 的仿射更新特性允许每个 rank 计算局部的 transition composite C_p 和 input composite H_p:

S_end^(p) = S_start^(p) · C_p + H_p

通过 all-gather 交换这些紧凑的 D×D 矩阵(而非完整激活),各 rank 可恢复数学上精确的初始 GDN 状态。对于 GDN 和 FFN 中的时序卷积,采用 halo exchange 机制:每 rank 与邻居交换 K-1 个边界帧,确保输出与未分片版本完全一致。

为进一步降低内存带宽瓶颈,团队用 OpenAI Triton 编写了融合 kernel,将 RMSNorm、ReLU、key 缩放、UCPE/RoPE 准备和 GDN 递归扫描合并为单个算子,带来 1.5-2 倍的效率提升。

双分支相机控制:从粗到细的 6-DoF 轨迹

精确控制相机运动是世界模型的关键能力。SANA-WM 采用双速率几何条件设计:

粗粒度分支(UCPE):在 latent 帧率上运行,通过 ray-local Unified Camera Positional Encoding 捕获全局 6-DoF 位姿结构。对每个 token 计算从世界坐标到射线局部坐标系的齐次变换 D_t,s,将其与 RoPE 正交组合后注入 attention。

细粒度分支(Plücker Mixing):补偿 VAE 时序步长内的相机运动。每个 latent token 覆盖 8 个原始帧,团队将 8 帧的 Plücker raymap(6 通道)打包为 48 通道张量,通过零初始化的 3D patch embedder 和逐块投影注入主分支。

消融实验显示,单独使用 Plücker 仅带来微小提升(FVD 从 348.93 降至 339.45),而 UCPE+Plücker 的组合可将旋转误差从 16.93° 降至 6.21°,相机运动一致性指标从 0.4937 优化至 0.2047。

两阶段生成与长视频 Refiner

为提升视觉质量,SANA-WM 引入两阶段流水线。第一阶段生成基础 latent,第二阶段使用专门的 refiner 进行质量增强。Refiner 基于 17B LTX-2 模型,训练时采用 truncated-σ flow matching:以 σ_start=0.909375 的高噪声扰动 stage-1 输出,学习目标为去噪后的高保真 latent。

关键技巧在于 reference conditioning—— 将目标 latent 的干净切片作为固定 KV anchor 前置到输入序列,通过 block-wise attention mask 保持其不参与 flow-matching loss。这使得 refiner 能在保持 stage-1 外观一致性的同时,修正结构伪影并锐化细节。

在长视频场景下,直接使用原始 LTX-2.3 refiner 会导致严重的时序退化(Simple split 的 ΔIQ 为 3.73,Hard split 为 4.65)。经过 LoRA 适配(rank-384,仅训练 attention 和 FFN 投影)后,refiner 可将 ΔIQ 降至 1.17/0.31,同时保持 22 videos/hour 的吞吐量。

可落地的工程参数

对于希望复现或部署 SANA-WM 的工程师,以下是关键配置参数:

训练配置

  • 优化器:AdamW,BF16 混合精度,梯度裁剪 0.5
  • 学习率:Stage 1-2(5s 片段)用 5e-5,Stage 3-4(1min 片段)降至 1e-5
  • Batch size:短片段阶段每 GPU 1 个 clip;长片段阶段 CP size 设为 2,每 GPU 0.5 个 clip(全局 batch 32)
  • 渐进训练:VAE 适配(50K 步)→ GDN 架构迁移(30K 步)→ 分钟级扩展 + 相机控制(31K 步)→ SFT(10K 步)

推理优化

  • Attention sink:使用第一帧 latent 作为 sink,softmax 层采用局部窗口注意力,确保内存不随 rollout 长度增长
  • 蒸馏版本:4 步去噪(sigmas: 0.909375, 0.725, 0.421875, 0),配合 NVFP4 量化实现消费级部署
  • 显存占用:双向 / 自回归变体约 51GB,refiner 完整流水线约 75GB,均可在单张 H100(80GB)运行

局限与权衡

SANA-WM 的设计选择也带来固有限制。模型缺乏显式 3D 场景记忆,在动态场景、罕见视角或更长 rollout(超过 60 秒)中可能出现漂移。此外,2.6B 的参数规模限制了其建模复杂场景细节的能力,部分结果仍依赖 refiner 进行后处理补偿。

尽管如此,SANA-WM 证明了长视频世界模型不必依赖超大规模参数和集群级推理。通过混合线性注意力、显存分片策略和渐进式训练,分钟级 720p 生成已可在单张消费级 GPU 上实现。这一效率突破不仅降低了研究和原型开发的门槛,也为实时交互式世界模拟指明了可行路径。


参考来源

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com