在视频生成模型从实验室走向生产部署的进程中,分辨率与时长始终是两道难以兼顾的约束。720p 分辨率配合 60 秒时长意味着需要处理 961 个潜在帧(latent frames),这一数字使得标准 softmax 注意力机制的内存消耗在分钟级生成任务中迅速失控。NVIDIA 推出的 SANA-WM 以 2.6B 参数规模在单块 GPU 上实现这一目标,其推理架构中的时序离散化策略、扩散先验热启动机制与帧率控制流水线,为视频生成部署提供了可直接参考的工程参数。
时序离散化:从全序列注意力到帧级循环状态
视频扩散模型的核心计算瓶颈在于潜在帧序列的长度。SANA-WM 采用 LTX2-VAE 进行时空压缩,该编码器的压缩比为 2.0 倍小于 ST-DC-AE、8.0 倍小于 Wan2.1-VAE,这意味着在相同的生成时长下,SANA-WM 需要处理的潜在帧令牌数量显著低于竞品。然而即便如此,961 个潜在帧仍然超出了标准注意力机制在单卡显存中的容纳能力。
SANA-WM 的核心创新在于引入帧级门控 DeltaNet(Gated DeltaNet,GDN)作为主要的时间建模组件。与标准 Transformer 中每个令牌都需要参与注意力计算不同,GDN 采用循环架构:每一递归步处理完整的一个潜在帧,维护一个维度恒定为 D×D 的隐藏状态。具体而言,GDN 通过两个机制控制信息流:一是衰减门 γ,它对旧帧的贡献进行指数级衰减,避免历史信息无限累积导致漂移;二是 Delta 规则修正,它仅更新目标值与当前状态预测之间的残差,而非全量状态重置。
为保证训练稳定性,SANA-WM 引入了代数键缩放方法,将键向量按 1/√(D・S) 进行缩放,其中 D 为头维度、S 为每帧的空间令牌数。实验表明,采用标准 L2 归一化(1/√D)在训练第 16 步即触发 NaN,而完全不进行缩放在第 1 步就会发散。正确的缩放策略使谱范数保持有界,支撑了分钟级序列的稳定训练。
最终骨干网络由 20 个 Transformer 块组成,交替排列 15 个帧级 GDN 块与 5 个 softmax 注意力块(位于第 3、7、11、15、19 层)。softmax 块的存在确保了长程空间一致性的精确召回能力,因为 GDN 的循环压缩特性在某些需要精确像素级对应的场景中存在局限。这种混合架构在保持 O (1) 内存复杂度的同时,兼顾了精确建模能力。
扩散先验热启动:两阶段生成流水线
单次通过扩散模型生成 60 秒高质量视频在当前算力条件下仍不现实。SANA-WM 采用两阶段流水线:第一阶段生成基础序列,第二阶段使用轻量 Refiner 进行修复与增强。
第一阶段 SANA-WM 输出的视频在时空一致性上表现良好,但随着序列延长,结构伪影会逐渐累积。这种长时漂移问题源于扩散模型的迭代去噪特性:错误会在长序列中传播并放大。SANA-WM 的解决方案是从 17B 参数的 LTX-2 模型初始化一个专用 Refiner,并应用秩为 384 的 LoRA 适配器进行微调。
Refiner 采用截断 σ 流匹配策略:第一阶段潜在表示首先被大起始噪声扰动(σ_start=0.9),随后 Refiner 学习将其映射至高保真目标。这一设计使得 Refiner 专注于修复而非全量重建,大幅降低了所需的去噪步数。推理时仅需 3 步 Euler 去噪即可完成增强。值得注意的是,LoRA 权重在推理阶段可合并至基础模型,对端到端吞吐量影响极小。
量化结果表明,第二阶段 Refiner 将长时视觉漂移(以 ΔIQ 衡量,即首尾 10 秒窗口的成像质量差异)从 Simple 轨迹的 3.79 降至 1.17,Hard 轨迹从 3.09 降至 0.31。这一改进在计算成本上的代价是额外的 3 步去噪与约 23GB 显存占用,总 Pipeline 显存需求为 74.7GB,仍在 80GB H100 的预算范围内。
对于资源受限的部署场景,可采用纯第一阶段推理,将显存占用降至 51.1GB,同时放弃约 15% 的视觉质量改进。这种可调节的质量 - 效率权衡为不同应用场景提供了灵活选择。
帧率控制流水线:三种推理变体与调度策略
SANA-WM 官方提供三种单 GPU 推理变体,分别对应不同的质量 - 延迟权衡:
双向生成器(Bidirectional Generator):适用于离线高质量合成场景。该变体在每次去噪迭代中同时访问完整序列的过去与未来潜在帧,能够最优地利用全局上下文信息。显存占用为 49.2GB,是三种变体中最高的,但生成质量最佳。
分块因果自回归生成器(Chunk-causal Autoregressive Generator):设计用于顺序生成与流式输出。该变体将 60 秒序列划分为多个时间块,每块独立生成但严格遵守因果依赖关系。注意力 Sink 令牌与局部时间窗口的引入确保了 softmax 注意力的显存占用在长时展开中保持恒定。显存占用为 51.1GB,支持流式首帧延迟优化。
蒸馏自回归生成器(Distilled AR + NVFP4):经过 4 步自条件蒸馏,将去噪步数压缩至 4 步。在 RTX 5090 上配合 NVFP4 量化,可在 34 秒内完成一个 60 秒 720p 片段的生成。这是面向实时应用的首选方案,但需要硬件支持 FP4 算力。
在实际部署中,帧率控制通过潜在帧采样密度实现调节。SANA-WM 原生支持 16fps 潜在帧率配置,可在推理时调整为 8fps 或 24fps 以适应不同场景的流畅度需求。更改采样密度仅需调整时间步间隔参数,不影响模型权重。
双分支相机控制:6-DoF 轨迹的精准遵循
分钟级世界模型的价值在于能够根据任意相机轨迹探索场景。SANA-WM 采用双分支架构处理 6-DoF 相机控制:
粗粒度分支(UCPE):在潜在帧率上运作,计算从相机到世界坐标系的射线局部基,并将其编码为统一相机位置编码(Unified Camera Positional Encoding,UCPE)。该分支捕获全局轨迹结构,确保相机旋转与平移的整体一致性。
细粒度分支(Plücker 混合):解决压缩失配问题。由于每个潜在帧对应 8 个原始帧,而每帧具有不同的相机姿态,细粒度分支为每 8 帧窗口计算像素级 Plücker 射线图(6D 表示:射线方向 d 与力矩 o×d),打包为 48 通道张量,通过零初始化投影注入每个自注意力输出之后。该分支恢复了粗粒度分支在潜在帧分辨率下无法感知的帧间相机运动。
消融实验表明,单独使用 UCPE 可将相机运动一致性(CamMC)从 0.4937 降至 0.2453,而 UCPE+Plücker 组合进一步降至 0.2047,旋转误差从 16.93° 降至 6.21°。这一双分支设计使得 SANA-WM 在单 GPU 配置下实现了比多 GPU 竞品更优的相机控制精度。
部署 Checklist:单卡 720p 推理的关键参数
将 SANA-WM 集成至生产环境时,以下参数清单可作为快速参考:
显存预算:Stage-1 全精度推理需 51.1GB,双阶段完整 Pipeline 需 74.7GB。若使用蒸馏变体 + NVFP4 量化,RTX 5090(24GB)可承载但需接受质量折损。
生成时长与分辨率:原生配置为 60 秒、720p(1280×720)。潜在帧率默认为 16fps,961 个潜在帧对应 60 秒输出。调整时长仅需修改潜在帧数量;分辨率变更需重新量化模型。
去噪步数:Stage-1 全精度推理通常需要 50 步 DDIM 调度;蒸馏变体压缩至 4 步;Refiner 固定 3 步。总推理时间在 4 步蒸馏配置下约为 34 秒(RTX 5090+NVFP4),全精度配置下视 GPU 型号不同约需 5-15 分钟。
相机轨迹输入:需要 6-DoF 姿态序列(旋转矩阵或欧拉角 + 平移向量)与内参(焦距、主点)。轨迹可通过手写脚本、运动捕捉数据或 SLAM 系统生成。OmniWorld 等仿真平台可直接导出兼容格式。
质量监控指标:推荐追踪 VBench Overall 分数(目标 > 80)与 ΔIQ(目标 < 1.5)。Camera Motion Consistency(CamMC)用于评估相机控制精度,建议 Hard 轨迹下保持在 1.5 以下。
数据来源与限制:SANA-WM 在动态场景或罕见视角下可能出现漂移,缺乏显式 3D 场景记忆。在部署前应针对目标场景类型进行专项评估。
总结
SANA-WM 证明了在单一消费级 GPU 上实现分钟级 720p 世界模型生成的工程可行性。其核心贡献在于通过帧级门控 DeltaNet 将时序建模的内存复杂度从 O (N²) 压缩至 O (1),配合双分支相机控制与两阶段精修流水线,在 2.6B 参数规模下达到了与 14B+14B 多 GPU 方案相当的生成质量。对于需要部署视频生成能力但受限于硬件预算的团队,SANA-WM 提供的三种推理变体与可调节质量 - 效率权衡为实际落地提供了清晰的工程路径。
资料来源:MarkTechPost 报道及 SANA-WM 论文(arXiv:2605.15178v1)。
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。