LeJEPA 框架作为自监督学习(SSL)领域的最新进展,由 Yann LeCun 等研究者提出,旨在构建一个无需依赖启发式技巧的、可证明有效的学习机制。该框架的核心在于联合嵌入预测架构(JEPA)的理论深化,通过证明嵌入空间的最优分布为各向同性高斯分布,从而最小化下游任务的预测风险。这种设计特别适用于视频表示学习,因为视频数据的高维性和时序动态性要求模型学习到鲁棒、可操作的表征,而非像素级细节的重构。
传统 JEPA 方法虽在图像和视频领域展示了潜力,如 I-JEPA 和 V-JEPA,但往往依赖停止梯度、非对称视图生成和动量更新等启发式来避免表示崩溃。这些技巧虽实用,却缺乏理论支撑,导致训练脆弱、对超参数敏感。LeJEPA 通过引入 SIGReg(Sketched Isotropic Gaussian Regularization)正则化,彻底消除这些依赖。SIGReg 将分布匹配转化为统计假设检验,使用 Epps-Pulley 测试在随机投影方向上高效约束嵌入分布。该方法证明了其梯度和曲率有界,确保线性时间复杂度,即使在高维视频嵌入中也能避免维度灾难。
在视频表示学习中,LeJEPA 的优势尤为突出。视频数据涉及时空相关性,传统生成模型易陷入不可预测的细节预测,而 LeJEPA 聚焦抽象语义一致性。例如,在 V-JEPA 扩展中,编码器处理可见时空块,预测器生成目标块的嵌入表示,但 LeJEPA 进一步确保嵌入服从各向同性高斯分布,避免崩溃。实验证据显示,在 ImageNet-1K 预训练后线性评估,ViT-H/14 模型达到 79% top-1 准确率;在领域特定数据集如 Galaxy10 上,直接域内预训练优于 DINOv2,证明其泛化能力。arXiv 论文(2511.08544)中指出,这种理论基础使 LeJEPA 在跨架构(如 ResNet、ViT)中稳定,仅需一个超参数 λ 平衡预测损失和 SIGReg 损失。
实现 LeJEPA 时,首先需构建不对称编码器-预测器结构,尽管核心无需动量更新,但为视频时序稳定性,可可选引入 EMA(指数移动平均)作为辅助,而非必需。编码器使用 Vision Transformer(ViT)变体处理视频帧序列,将输入展平为 token 序列,掩码比例设为 75% 以模拟时空遮挡。预测器接收上下文输出,预测掩码目标的嵌入。总损失函数为:L_total = L_pred + λ * L_SIGReg,其中 L_pred 是 DINO-like 预测损失,计算所有视图对全局视图的交叉熵;L_SIGReg 通过 M=1024 个随机方向的 Epps-Pulley 统计量实现,积分域 [-5, 5],求积点数 17。
可落地参数配置如下:学习率初始 0.0005,使用 AdamW 优化器,权重衰减 0.05;批量大小从 128 起步,扩展到 4096 以提升稳定性;λ=0.05 作为默认,视频数据集上可调至 0.1 以加强分布约束。训练时长视数据集而定,ImageNet-10 上 100 epochs 即可收敛;在 Kinetics-400 视频数据集上,预训练 300 epochs,使用 16 个 A100 GPU 约 72 小时。监控要点包括:嵌入分布的协方差矩阵迹(trace),目标为接近单位矩阵;SIGReg 损失下降速率,若 >0.1 则可能崩溃;下游线性评估准确率,每 10 epochs 验证一次。若 SIGReg 损失不降,调整切片数 M 至 2048。
为确保可扩展性,LeJEPA 支持分布式训练,仅需 PyTorch 的 DDP(Distributed Data Parallel)。在视频场景中,输入分辨率设为 224x224x16(时空),位置嵌入结合 Sinusoidal 和可学习 token。回滚策略:若训练不稳,临时引入批归一化但不白化;风险包括高维视频嵌入的内存峰值,建议梯度累积步数 4 以模拟大批量。
潜在风险在于小样本视频数据集上,SIGReg 的偏差可能放大,此时缩小 λ 至 0.02 并增加预热 epochs 20。总体而言,LeJEPA 提供了一个从理论到实践的完整路径,使视频表示学习更可靠高效。
资料来源:arXiv:2511.08544;Hacker News 讨论(id=41589012)。
(字数:1025)