Hotdry.
ai-systems

将视觉-语言模型集成到世界模拟中:用于具身AI的预测规划与令牌化和潜在扩散

探讨将视觉-语言模型融入世界模拟以实现具身AI的预测规划,使用令牌化和潜在扩散技术提升代理决策鲁棒性。

在具身人工智能(Embodied AI)领域,将视觉 - 语言模型(Vision-Language Models, VLMs)集成到世界模型(World Models)中已成为实现预测规划的核心策略。这种集成允许代理在模拟环境中预见未来状态,从而做出更鲁棒的决策,而非依赖实时试错。传统方法往往局限于二维图像处理或直接感知 - 行动映射,忽略了三维空间动态和语义推理的复杂性。通过 VLMs 的语义嵌入与世界模型的生成能力相结合,可以构建一个高效的预测框架,支持从自动驾驶到机器人操纵的多样化应用。

观点的核心在于:VLMs 提供丰富的语义理解,而世界模型则模拟环境动态,二者融合能处理部分可观测性和不确定性。举例而言,Fei-Fei Li 的 World Labs 推出的 Marble 系统使用高斯溅射(Gaussian Splats)从文本提示生成可编辑的三维场景,这体现了 VLMs 向空间智能的扩展。[1] 然而,单纯的资产生成不足以支持规划;Yann LeCun 的 JEPA 框架强调潜在状态预测,用于代理内部规划,这与 VLMs 的视觉 - 语言融合相辅相成。证据显示,在 DriveVLA-W0 系统中,世界模型通过预测未来图像生成密集监督信号,迫使 VLA 模型学习底层动态,如 “前车刹车→我需减速”。[2] 这种方法在超过 100 万段视频数据集上训练,性能随数据规模扩展而提升,证明了融合的有效性。

进一步证据来自 VLWM(Vision-Language World Model),它利用自然语言作为抽象状态表示,从视觉观测预测交错动作和状态变化的轨迹。训练于 Ego4D 等 800 天视频数据集,使用字幕树(Tree of Captions)和 LLM 自优化提取目标 - 规划对,实现 45% 的世界预测准确率。相比基线 VLM,VLWM 在 RoboVQA 基准上 BLEU-1 分数达 74.2,展示了语义抽象在长时程规划中的优势。3D-VLA 则扩展到三维,通过交互令牌(Interaction Tokens)和具身扩散模型生成目标点云,支持三维推理和多模态规划,在模拟环境中成功率提升 20%。

实现这一集成的关键技术包括令牌化(Tokenization)和潜在扩散(Latent Diffusion)。令牌化将连续视觉特征转换为离散序列,便于自回归预测。在离散 VLM 中,如 VQ-VAE 编码的图像,使用 Transformer 生成视频令牌序列,优化目标为最小化下一令牌预测损失。词汇表大小通常设为 8192-16384,确保覆盖多样化视觉模式。对于连续特征的 ViT-based VLM,无法直接令牌预测,故引入潜在扩散模型:条件于当前视觉和动作特征,训练去噪网络预测未来帧噪声,使用 MSE 损失优化。扩散步数控制在 50-100 步,推理时跳过扩散过程以实现实时性(<100ms / 帧)。

潜在扩散的优势在于高效生成高质量未来状态,避免像素级重建的冗余。训练时,联合优化动作预测损失和扩散损失;在规划中,使用逆向动力学(Inverse Dynamics Modeling)从目标状态回推动作序列。参数设置:潜在空间维度 256-512,噪声调度为线性或余弦,采样温度 0.7-1.0 以平衡多样性和确定性。风险包括误差累积(长序列 > 10 步时准确率降 10%)和计算开销(GPU 内存 > 16GB),可通过 MoE(Mixture of Experts)专家模块缓解,动作专家仅 500M 参数,联合注意力融合多模态上下文。

可落地参数与清单如下:

  1. 数据准备:收集 > 10 万段视频 clips,包括 Ego4D、HowTo100M。生成字幕树:每 5-10 秒窗口提取密集字幕,使用 LLM 自优化提炼目标 - 规划对(目标描述 + 解读 + 动作序列)。

  2. 模型架构:基底为 3B-7B 参数 VLM(如 Qwen2.5-VL),添加交互令牌(对象 / 位置 / 场景,各 6-10 个)。预训练扩散模型:RGBD-to-RGBD 用 Stable Diffusion,点云用 Point-E。投影器对齐:LoRA 微调,仅训令牌嵌入和投影层。

  3. 训练流程:自监督预训练世界模型(预测未来令牌 / 潜在),然后监督微调动作策略。损失:交叉熵(令牌)+ 扩散去噪 MSE。批次大小 32,学习率 1e-4,AdamW 优化器,训练轮次 10-20 epochs。

  4. 规划与执行:1 型系统:自回归文本补全生成动作。2 型系统:生成候选轨迹,评判器(自监督 LM)计算语义距离成本,最小化搜索(Beam Search, width=5)。监控:预测准确率 > 80%,规划 Elo 评分 > 1000。

  5. 回滚策略:若预测偏差 > 阈值(IoU<0.5),切换到行为克隆 fallback。模拟验证:在 CARLA/Habitat 中 rollout 1000 episodes,成功率> 70% 后部署。

  6. 监控要点:实时延迟 < 200ms,内存 < 12GB。风险缓解:分布外泛化用 OOD 数据集测试,误差累积用分层预测(每步重置潜在)。

这种框架不仅提升了代理决策的鲁棒性,还为实际部署提供了可操作路径。在自动驾驶中,可实现长时程路径规划;在机器人中,支持复杂操纵如 “避开障碍抓取物体”。

资料来源:[1] entropytown.com/articles/2025-11-13-world-model-lecun-feifei-li;[2] DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving (2025)。

查看归档