在自监督学习领域,视频表示学习一直是挑战性任务。传统方法往往依赖负采样或像素级重建,导致计算开销巨大且泛化能力有限。LeJEPA(Latent-Euclidean Joint Embedding Predictive Architecture)作为一种新型框架,通过蒙版视频建模结合动量编码器,实现了高效的联合嵌入预测。这种方法避免了表示崩溃问题,支持大规模视频数据的无监督学习,特别适用于机器人视觉和动作预测等应用。
LeJEPA的核心观点在于,将嵌入空间约束为各向同性高斯分布,从而最小化偏差和方差,提升预测稳定性。不同于生成式模型的像素重建,LeJEPA聚焦于抽象特征预测:模型从部分可见视频帧中推断蒙版部分的联合嵌入表示。这种设计借鉴了人类认知过程,通过“观察-预测”循环学习物理直觉,而无需显式标注。
证据显示,LeJEPA在视频任务中表现出色。例如,在Something-Something v2数据集上,采用蒙版策略的模型Top-1准确率达77.3%,较基线提升8.6%。动量编码器通过指数移动平均(EMA)更新,提供稳定的目标表示,避免了负采样带来的噪声。研究表明,这种同步机制使模型在冻结评估模式下,泛化到图像任务时ImageNet-1K准确率达74.8%。
蒙版视频建模是LeJEPA的关键组件。输入视频被视为3D时空序列,随机蒙版75%-90%的时空块,仅编码可见部分。编码器(基于ViT-G,10亿参数)提取时空特征,预测器(Transformer,3亿参数)则基于可见嵌入预测蒙版目标嵌入。动量编码器作为辅助,参数通过主编码器的EMA更新(衰减率0.999),生成一致的目标嵌入,确保预测不依赖瞬时噪声。
为实现可落地部署,以下是工程化参数和清单:
-
数据准备:
- 数据集:VideoMix22M(100万小时视频+100万图像),分辨率384x384,帧长64。
- 预处理:时序下采样步幅4,随机裁剪并归一化到[-1,1]。
- 蒙版策略:动态时空蒙版,比例90%,确保时间一致性(管道蒙版,避免帧间泄漏)。
-
模型架构参数:
- 编码器:ViT-G/14,嵌入维度1024,层数24。
- 预测器:Transformer解码器,头数16,FFN维度4096。
- 动量编码器:EMA更新,初始同步率1.0,衰减0.999。
- 损失函数:L1损失(嵌入预测)+ SIGReg(分布正则化,λ=0.1)。
-
训练配置:
- 优化器:AdamW,学习率1e-4,权重衰减0.05。
- 批次大小:4096(分布式训练,8x A100 GPU)。
- 训练时长:1000 epochs,梯度裁剪1.0,warmup 10%步骤。
- 监控指标:重建MSE <0.1,Epps-Pulley统计量<5(表示高斯匹配)。
-
同步与监控要点:
- 动量同步:每步更新目标嵌入,监控EMA收敛(目标嵌入方差稳定在1.0)。
- 风险阈值:若表示崩溃(嵌入方差<0.5),增加SIGReg权重至0.2。
- 回滚策略:若泛化下降,冻结编码器,仅微调预测器。
- 部署清单:ONNX导出编码器,支持实时推理(延迟<300ms/帧)。
在实际应用中,如机器人规划,LeJEPA仅需62小时微调数据,即可实现65%-80%零样本成功率。相比Cosmos模型,计算量减少30倍,适用于边缘设备。
LeJEPA的创新在于无需启发式,通过理论支持的分布约束实现鲁棒学习。这为未来多模态JEPA扩展铺平道路,如结合音频的A-JEPA。
资料来源:arXiv:2411.11835;Meta AI博客;相关实验基准如Epic-Kitchens-100。