2025年11月18日 ai-systems

Implementing LeJEPA: Provable Self-Supervised Learning Without Heuristics for Video Representations

LeJEPA 通过理论保证的各向同性高斯嵌入和 SIGReg 正则化，实现高效的自监督视频学习，消除传统启发式依赖，提供可扩展的参数配置和监控策略。

内容加载中...

LeJEPA 框架作为自监督学习（SSL）领域的最新进展，由 Yann LeCun 等研究者提出，旨在构建一个无需依赖启发式技巧的、可证明有效的学习机制。该框架的核心在于联合嵌入预测架构（JEPA）的理论深化，通过证明嵌入空间的最优分布为各向同性高斯分布，从而最小化下游任务的预测风险。这种设计特别适用于视频表示学习，因为视频数据的高维性和时序动态性要求模型学习到鲁棒、可操作的表征，而非像素级细节的重构。

传统 JEPA 方法虽在图像和视频领域展示了潜力，如 I-JEPA 和 V-JEPA，但往往依赖停止梯度、非对称视图生成和动量更新等启发式来避免表示崩溃。这些技巧虽实用，却缺乏理论支撑，导致训练脆弱、对超参数敏感。LeJEPA 通过引入 SIGReg（Sketched Isotropic Gaussian Regularization）正则化，彻底消除这些依赖。SIGReg 将分布匹配转化为统计假设检验，使用 Epps-Pulley 测试在随机投影方向上高效约束嵌入分布。该方法证明了其梯度和曲率有界，确保线性时间复杂度，即使在高维视频嵌入中也能避免维度灾难。

在视频表示学习中，LeJEPA 的优势尤为突出。视频数据涉及时空相关性，传统生成模型易陷入不可预测的细节预测，而 LeJEPA 聚焦抽象语义一致性。例如，在 V-JEPA 扩展中，编码器处理可见时空块，预测器生成目标块的嵌入表示，但 LeJEPA 进一步确保嵌入服从各向同性高斯分布，避免崩溃。实验证据显示，在 ImageNet-1K 预训练后线性评估，ViT-H/14 模型达到 79% top-1 准确率；在领域特定数据集如 Galaxy10 上，直接域内预训练优于 DINOv2，证明其泛化能力。arXiv 论文（2511.08544）中指出，这种理论基础使 LeJEPA 在跨架构（如 ResNet、ViT）中稳定，仅需一个超参数 λ 平衡预测损失和 SIGReg 损失。

实现 LeJEPA 时，首先需构建不对称编码器-预测器结构，尽管核心无需动量更新，但为视频时序稳定性，可可选引入 EMA（指数移动平均）作为辅助，而非必需。编码器使用 Vision Transformer（ViT）变体处理视频帧序列，将输入展平为 token 序列，掩码比例设为 75% 以模拟时空遮挡。预测器接收上下文输出，预测掩码目标的嵌入。总损失函数为：L_total = L_pred + λ * L_SIGReg，其中 L_pred 是 DINO-like 预测损失，计算所有视图对全局视图的交叉熵；L_SIGReg 通过 M=1024 个随机方向的 Epps-Pulley 统计量实现，积分域 [-5, 5]，求积点数 17。

可落地参数配置如下：学习率初始 0.0005，使用 AdamW 优化器，权重衰减 0.05；批量大小从 128 起步，扩展到 4096 以提升稳定性；λ=0.05 作为默认，视频数据集上可调至 0.1 以加强分布约束。训练时长视数据集而定，ImageNet-10 上 100 epochs 即可收敛；在 Kinetics-400 视频数据集上，预训练 300 epochs，使用 16 个 A100 GPU 约 72 小时。监控要点包括：嵌入分布的协方差矩阵迹（trace），目标为接近单位矩阵；SIGReg 损失下降速率，若 >0.1 则可能崩溃；下游线性评估准确率，每 10 epochs 验证一次。若 SIGReg 损失不降，调整切片数 M 至 2048。

为确保可扩展性，LeJEPA 支持分布式训练，仅需 PyTorch 的 DDP（Distributed Data Parallel）。在视频场景中，输入分辨率设为 224x224x16（时空），位置嵌入结合 Sinusoidal 和可学习 token。回滚策略：若训练不稳，临时引入批归一化但不白化；风险包括高维视频嵌入的内存峰值，建议梯度累积步数 4 以模拟大批量。

潜在风险在于小样本视频数据集上，SIGReg 的偏差可能放大，此时缩小 λ 至 0.02 并增加预热 epochs 20。总体而言，LeJEPA 提供了一个从理论到实践的完整路径，使视频表示学习更可靠高效。

资料来源：arXiv:2511.08544；Hacker News 讨论（id=41589012）。

（字数：1025）