SANA-WM：2.6B 参数分布式 Diffusion Transformer 实现消费级 GPU 分钟级 720p 视频生成

长视频生成一直是世界模型（World Model）领域的核心挑战。传统方案往往依赖数十亿甚至上百亿参数的大模型，且需要多卡并行推理才能生成长达一分钟的视频。NVIDIA 最新开源的 SANA-WM 给出了不同的答案：仅用 2.6B 参数，在单张消费级 GPU 上即可生成 720p、60 秒的高质量视频，同时保持对 6-DoF 相机轨迹的精确控制。

效率优先的设计理念

SANA-WM 的核心命题是：能否在有限计算资源下，原生训练出支持分钟级生成的世界模型？团队选择了一条效率优先的技术路线。整个模型仅需约 21.3 万条公开视频片段（含 metric-scale 位姿标注），在 64 张 H100 上训练 15 天即可完成。相比之下，同类开源基线如 LingBot-World 需要 14B+14B 的双模型架构，HY-WorldPlay 也需要 8B 参数配合 8 卡推理。

在推理端，SANA-WM 提供三种单 GPU 部署方案：双向生成器（高质量离线合成）、块因果自回归生成器（顺序 rollout）、以及蒸馏后的少步自回归生成器（快速部署）。最激进的优化版本配合 NVFP4 量化，在 RTX 5090 上生成 60 秒 720p 视频仅需 34 秒去噪时间，吞吐量达到每小时 24 条视频，比同类 480p 基线快 36 倍。

混合线性注意力：长上下文的内存破局点

分钟级视频生成的首要瓶颈是显存。以 720p 分辨率、16fps、60 秒时长计算，模型需要处理近 960 帧的时序上下文。传统 softmax attention 的 KV cache 随序列长度线性增长，在 60 秒尺度上很快就会 OOM。

SANA-WM 的解决方案是 Hybrid Linear Attention 架构。主体采用 20 层 Transformer，其中 15 层使用 frame-wise Gated DeltaNet（GDN），仅在第 3、7、11、15、19 层保留标准 softmax attention 用于精确长程召回。

GDN 的核心优势在于其递归状态表示。与传统线性注意力累积无界状态不同，GDN 引入衰减门（decay gate）和 delta 规则修正：

S_t = S_{t-1} · M_t + U_t
M_t = γ_t · (I - K̂_t · β_t · K̂_t^⊤)
U_t = V_t · β_t · K̂_t^⊤

其中 S_t 是 D×D 的帧级递归状态，γ_t 控制历史信息衰减，β_t 是逐 token 更新门。关键在于 GDN 按帧扫描而非按 token 扫描 —— 每帧的所有空间 token 共享同一个状态更新，将递归复杂度从 O (T×S) 降至 O (T)。

为保证数值稳定性，团队发现必须对 key 进行 1/√(D・S) 的缩放。实验显示，缺少此项缩放的基线在训练初期就会出现梯度爆炸（第 16 步 NaN），而正确缩放的版本可稳定收敛。

显存分片：Context-Parallel 的工程实现

在 64 卡训练 961 帧（60 秒）序列时，SANA-WM 采用 Context-Parallel（CP）策略沿时间维度分片。GDN 的仿射更新特性允许每个 rank 计算局部的 transition composite C_p 和 input composite H_p：

S_end^(p) = S_start^(p) · C_p + H_p

通过 all-gather 交换这些紧凑的 D×D 矩阵（而非完整激活），各 rank 可恢复数学上精确的初始 GDN 状态。对于 GDN 和 FFN 中的时序卷积，采用 halo exchange 机制：每 rank 与邻居交换 K-1 个边界帧，确保输出与未分片版本完全一致。

为进一步降低内存带宽瓶颈，团队用 OpenAI Triton 编写了融合 kernel，将 RMSNorm、ReLU、key 缩放、UCPE/RoPE 准备和 GDN 递归扫描合并为单个算子，带来 1.5-2 倍的效率提升。

双分支相机控制：从粗到细的 6-DoF 轨迹

精确控制相机运动是世界模型的关键能力。SANA-WM 采用双速率几何条件设计：

粗粒度分支（UCPE）：在 latent 帧率上运行，通过 ray-local Unified Camera Positional Encoding 捕获全局 6-DoF 位姿结构。对每个 token 计算从世界坐标到射线局部坐标系的齐次变换 D_t,s，将其与 RoPE 正交组合后注入 attention。

细粒度分支（Plücker Mixing）：补偿 VAE 时序步长内的相机运动。每个 latent token 覆盖 8 个原始帧，团队将 8 帧的 Plücker raymap（6 通道）打包为 48 通道张量，通过零初始化的 3D patch embedder 和逐块投影注入主分支。

消融实验显示，单独使用 Plücker 仅带来微小提升（FVD 从 348.93 降至 339.45），而 UCPE+Plücker 的组合可将旋转误差从 16.93° 降至 6.21°，相机运动一致性指标从 0.4937 优化至 0.2047。

两阶段生成与长视频 Refiner

为提升视觉质量，SANA-WM 引入两阶段流水线。第一阶段生成基础 latent，第二阶段使用专门的 refiner 进行质量增强。Refiner 基于 17B LTX-2 模型，训练时采用 truncated-σ flow matching：以 σ_start=0.909375 的高噪声扰动 stage-1 输出，学习目标为去噪后的高保真 latent。

关键技巧在于 reference conditioning—— 将目标 latent 的干净切片作为固定 KV anchor 前置到输入序列，通过 block-wise attention mask 保持其不参与 flow-matching loss。这使得 refiner 能在保持 stage-1 外观一致性的同时，修正结构伪影并锐化细节。

在长视频场景下，直接使用原始 LTX-2.3 refiner 会导致严重的时序退化（Simple split 的 ΔIQ 为 3.73，Hard split 为 4.65）。经过 LoRA 适配（rank-384，仅训练 attention 和 FFN 投影）后，refiner 可将 ΔIQ 降至 1.17/0.31，同时保持 22 videos/hour 的吞吐量。

可落地的工程参数

对于希望复现或部署 SANA-WM 的工程师，以下是关键配置参数：

训练配置

优化器：AdamW，BF16 混合精度，梯度裁剪 0.5
学习率：Stage 1-2（5s 片段）用 5e-5，Stage 3-4（1min 片段）降至 1e-5
Batch size：短片段阶段每 GPU 1 个 clip；长片段阶段 CP size 设为 2，每 GPU 0.5 个 clip（全局 batch 32）
渐进训练：VAE 适配（50K 步）→ GDN 架构迁移（30K 步）→ 分钟级扩展 + 相机控制（31K 步）→ SFT（10K 步）

推理优化

Attention sink：使用第一帧 latent 作为 sink，softmax 层采用局部窗口注意力，确保内存不随 rollout 长度增长
蒸馏版本：4 步去噪（sigmas: 0.909375, 0.725, 0.421875, 0），配合 NVFP4 量化实现消费级部署
显存占用：双向 / 自回归变体约 51GB，refiner 完整流水线约 75GB，均可在单张 H100（80GB）运行

局限与权衡

SANA-WM 的设计选择也带来固有限制。模型缺乏显式 3D 场景记忆，在动态场景、罕见视角或更长 rollout（超过 60 秒）中可能出现漂移。此外，2.6B 的参数规模限制了其建模复杂场景细节的能力，部分结果仍依赖 refiner 进行后处理补偿。

尽管如此，SANA-WM 证明了长视频世界模型不必依赖超大规模参数和集群级推理。通过混合线性注意力、显存分片策略和渐进式训练，分钟级 720p 生成已可在单张消费级 GPU 上实现。这一效率突破不仅降低了研究和原型开发的门槛，也为实时交互式世界模拟指明了可行路径。

参考来源

arXiv:2605.15178 - SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
项目页面: https://nvlabs.github.io/Sana/WM/

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。