Linum 图像-视频 VAE 优化：架构设计与训练管道实战参数

在图像到视频生成系统中，变分自编码器（VAE）负责将像素空间压缩至连续潜在空间，以降低扩散 Transformer 的计算负担。Linum 通过 4 个月实验优化了图像 - 视频统一 VAE 架构与训练管道，实现高保真重建的同时确保下游生成质量，避免了过度重建噪声导致的潜在空间扭曲。核心观点是：压缩率需平衡内存与保真度，联合训练需精确 Loss 归一化，稳定性依赖规范化层选择，多分辨率需渐进 Curriculum。本文提炼可落地参数与清单，帮助复现类似系统。

VAE 架构设计：3D CNN 与压缩策略

Linum VAE 采用经典 Encoder-Decoder 结构，但全用 Conv3D 处理时空维度，支持图像（填充为 4 帧静态视频，经时下采样塌缩至单帧潜在）和视频统一编码。初始实验从 FLUX.1 启发，尝试 4× 空间 + 4× 时间下采样（有效压缩 12×），但 360p 1s 视频单样本即 OOM 80GB H100。经网格搜索，最终选 8× 空间 + 4× 时间（有效 48× 压缩，考虑 RGB/16 通道）：180p 视频重建无明显 artifact，高运动场景偶现瑕疵。

可落地参数：

空间下采样：Encoder 中 3 层 ×2 下采样（总 8×），Mid-block 前尽早下采样减 Attn 内存。
时间下采样：4×（2 层 ×2），图像 pad 至 4 帧。
潜在通道：16（RGB 3→16 上采样对称）。
Attn：仅 Mid-block 单头，因全时空 Attn 内存爆炸。

此配置下，720p 5s@24FPS 像素 110M tokens 压缩至可训规模，下游 DiT 序列长大幅缩减。

联合训练 Loss 制定：模态与尺寸平衡

纯视频 VAE 易训，但联合图像时，重建 Loss（sum over tensor /batch_size）随视频 tensor 尺寸线性放大：180p 2s@24FPS 视频～10× 图像（256×256 pad4 帧）。优化器忽略图像，导致单图模糊 smear faces。

解决方案：改 sum-based Loss 相对固定参考形状归一化，再显式加权模态：

L_recon = (sum(|x - recon|) / ref_shape_elements) * modality_weight
total_L = L_image * w_img + L_video * w_video

参考形状统一为 180p 基准。等权 NaN，图像权重降至 0.25 仍爆；引入 FiLM 层（CNN 隐藏特征经 image/video embedding 调制 scale/shift）辅助区分，但梯度爆炸，后移除。

完整 Loss：

核心：Laplacian NLL（学共享 scale，退化为自适应 L1）。
KL：权重 1e-6（仅轻正则）。
Perceptual：VGG 特征距离。
Adversarial：GAN 判别器锐化细节。
权重示例：w_img=0.1~0.25, w_video=1.0（调优防 NaN）。

重建忽略 pad 重复帧，仅首帧 perceptual/adv。

稳定性修复：Splotches 与规范化

高分辨率（360p+）现 “黑斑”（splotches），类似 LiteVAE。钩子追踪激活 L2-norm，发现 Encoder Mid-block Attn 前均匀，后爆出高 norm 像素簇。

修复链：

Conv3D 块：GroupNorm+Conv → Self-Modulating Convolution (SMC)：通道 - wise 权重 L2-norm 归一 + 学 scale，独立调制防组内主导。
Mid-block Attn：GroupNorm → PixelNorm（像素级 L2 /sqrt (dim+eps)），防 outlier 劫持 Attn map。

加 Adaptive Gradient Clipping (AGC)：EMA 追踪 grad_norm /weight_norm，clip 超阈通道。

监控清单：

指标	阈值	异常行动
激活 L2-norm (各层)	<10	绘图定位 splotch 源头
梯度 norm	<1e3	启用 AGC，clip ratio>1.5
Loss NaN	0	降 w_img，检查 scale param
重建 FID (rFID)	<0.5 (180p)	过滤低质样本

多分辨率 Curriculum 与下游注意

顺序 fine-tune 180p→360p→720p 导致低分辨 “灾难性遗忘”。改混合采样：持续低分辨 + 渐增高分辨，超参扫 Loss 权重：

180p: 1.1
360p: 0.1
720p: 0.01

高分辨视觉冗余多，易学，故低权重。最终虽重建优，但 Linum 发现更好 rFID 不增下游 gFID：过度拟合 JPEG 噪声扭曲语义潜在空间。建议：数据集过滤压缩 artifact，VAE 加 alignment 正则（如 DINO 特征对齐）。

训练管道清单：

数据：视频 180p/360p/720p 混合，图像 pad4 帧；预滤低质（blocky faces, shaky）。
预训：视频 only 1 周基线。
联合：3 个月，curriculum 2 周。
嵌入：离线全数据集 → latents，存 HDF5。
硬件：H100 80GB，FSDP 分片。
回滚：若 NaN，降 batch_size 至 1，w_img=0.05。

Linum 最终用 Wan 2.1 VAE 生产（更小快），但开源自研 VAE 供复用。此优化适用于任何 image-to-video 系统，确保 VAE 不仅是压缩器，更是 “学得好的” 潜在桥接。

资料来源： [1] Linum Field Notes: Better Reconstruction ≠ Better Generation, https://linum.ai/field-notes/vae-reconstruction-vs-generation
[2] Linum.ai 主页 & Field Notes, https://linum.ai/field-notes