空间智能:构建世界模型的工程化路径与 AI 下一前沿
在人工智能发展历程中,2025 年标志着从 "语言智能" 向 "空间智能" 的重要转折点。李飞飞在其开创性文章《从词语到世界:空间智能是 AI 的下一前沿》中明确指出,当前的大语言模型虽然能够在抽象知识处理方面表现出色,但在物理世界的认知、理解和交互方面存在根本性局限。空间智能将成为 AI 从 "会思考" 到 "能行动" 的关键桥梁,代表着人工智能向真正理解和操控物理世界的跃升。
当前 AI 系统的空间认知瓶颈
现代多模态大语言模型(MLLMs)在 2D 视觉任务上取得了显著进展,但当面对 3D 空间理解任务时,其表现往往令人失望。李飞飞在文章中尖锐地指出了这些模型的 "空间盲点":
- 距离和方位估计能力不足:当前最先进的 MLLMs 在估计物体距离、方位和尺寸方面的表现仅优于随机猜测水平
- 3D 旋转理解缺失:模型无法有效进行 "心理旋转"—— 从新角度重新生成或理解物体
- 物理规律认知缺失:无法预测基本的物理现象,如重力、碰撞、物体运动轨迹
- 视频连贯性问题:AI 生成的视频往往在几秒钟后就失去空间和时间的一致性
这些局限性反映了现有 AI 架构的深层问题:传统的 1D/2D 序列 token 化方法无法有效处理 3D 空间中的复杂几何关系和物理约束。正如李飞飞所言:"我们的世界是整体的 —— 不仅包括我们正在观察的内容,更重要的是空间中所有元素如何关联、意味着什么,以及为什么重要。"
世界模型:空间智能的技术内核
为了突破这些限制,李飞飞提出了世界模型(World Models)的概念作为空间智能的技术解决方案。世界模型是超越传统大语言模型的生成模型,具备处理语义、物理、几何和动态复杂世界的能力。
根据李飞飞的定义,空间智能导向的世界模型需要具备三项核心能力:
1. 一致性世界生成能力
世界模型必须能够生成遵循语义或感知指令的多样化模拟世界,同时保持几何、物理和动态的一致性。关键技术挑战包括:
- 隐式 vs 显式几何表示:研究社区正在探索世界内在几何结构的最佳表示方法
- 时序一致性维护:模型对当前状态的理解必须与导致当前状态的历史状态保持连贯
- 物理约束集成:确保生成世界中的对象和智能体遵循基本的物理定律
2. 多模态输入处理能力
世界模型应当能够处理包括图像、视频、深度图、文本指令、动作和手势在内的多种输入形式,并生成尽可能完整的世界状态。这要求:
- 视觉 - 语义融合:在保持视觉输入保真度的同时,平等处理语义指令
- 跨模态一致性:确保不同模态输入在统一的表示空间中保持语义一致性
- 部分信息补全:基于不完整信息推断完整的空间配置
3. 动态状态预测能力
当行动和 / 或目标作为输入时,模型输出必须包含世界的下一个状态(隐式或显式表示)。这涉及:
- 前向状态预测:基于当前世界状态和行动预测未来状态
- 目标导向规划:在给定目标状态时,能够推导出实现目标所需的行动序列
- 物理规律遵循:预测结果必须符合已知的物理定律和动态行为
工程化实现路径
架构创新:超越 1D/2D 序列建模
当前 MLLM 和视频扩散模型通常将数据 token 化为 1D 或 2D 序列,这种方法在处理简单空间任务时也会变得不必要地复杂。世界模型研究正在推动架构创新:
- 3D/4D 感知 token 化:采用能够直接处理 3D 体素或 4D 时空张量的 tokenization 策略
- 空间感知记忆机制:如 World Labs 的 RTFM(实时帧模型)所示,利用空间锚定帧作为空间记忆形式
- 几何先验集成:将结构化的空间约束嵌入到模型架构中
数据策略:2D 到 3D 的规模化转换
训练世界模型需要比文本数据更复杂的数据集。关键的解决方案是开发能够从 2D 图像和视频中提取更深层空间信息的算法:
2D-3D 数据提升管道:
- 深度估计集成:通过集成深度估计、相机标定和尺度标定,将单视图图像转换为 3D 表示
- 尺度感知 3D 重建:生成包含点云、相机位姿、深度图和伪 RGBD 的综合 3D 表示
- 多源数据融合:结合互联网规模图像、视频、高质量合成数据以及深度和触觉信息
清华大学团队提出的 Spatial-MLLM 展示了另一种方法:通过引入结构感知的空间编码器与传统语义编码器并行融合,在不需要 3D 输入的情况下实现空间推理能力。
记忆与上下文:长时序空间 - 时间建模
对于具身智能应用,3DLLL-Mem 等模型引入了长时序空间 - 时间记忆概念:
- 工作记忆与情境记忆融合:使用代表当前观察的工作记忆 token 作为查询,选择性地关注和融合来自情境记忆(存储过去观察和交互)最有用的时间和空间特征
- 记忆效率优化:在复杂的长时间环境中保持任务相关信息,同时维持记忆效率
- 动态记忆管理:在环境演化过程中维护连贯的空间表示,同时整合新信息
应用场景与工程挑战
创意产业:叙事体验的空间化
World Labs 的 Marble 平台代表了空间智能在创意工具中的首次商业应用。该平台使电影制作人、游戏设计师、建筑师和各类故事讲述者能够快速创建和迭代完全可探索的 3D 世界,显著降低了传统 3D 设计软件的工作负担。
关键技术指标:
- 实时生成能力:单块 NVIDIA H100 GPU 支撑交互式帧率推理
- 场景持久性:通过 "带位姿帧空间记忆" 与 "上下文调度" 技术实现世界场景的持久一致性
- 多模态交互:支持文本、图像、手势等多种输入形式的自然交互
机器人学:从模拟到现实的桥梁
空间智能在机器人学习中的应用前景广阔,特别是在数据稀缺的机器人研究领域:
- 仿真 - 现实差距缩小:世界模型输出的感知保真度和计算效率提升可以迅速缩小仿真与现实的差距
- 规模化训练数据:帮助在无数状态、交互和环境中的仿真训练机器人
- 跨形态适应:为多样化机器人设计(纳米机器人、软体机器人、深海 / 太空机器人)提供仿真数据和训练环境
智慧城市:物理 AI 的空间化部署
NVIDIA 与其合作伙伴在智慧城市和工业流程中部署的物理 AI 系统展示了空间智能在基础设施中的应用潜力:
- 3D 空间智能感知:利用基于计算机视觉的映射和 3D 空间智能,适应动态人机交互中增加的变异性
- 智能虚拟围栏:基于 OpenUSD 的数字孪生和物理 grounded 仿真,为工业环境创建智能安全系统
- 实时空间分析:通过视频智能产品实现设施安全合规和运营效率的实时洞察
未来工程化发展方向
统一任务函数设计
定义一个如 LLM 中 next-token 预测般简洁优雅的通用任务函数是世界模型研究的核心目标。该目标函数和相应表示必须反映几何和物理定律,尊重世界模型作为想象和现实 grounded 表示的基本性质。
神经仿真方法进化
实现世界模型需要更强大的神经仿真方法,能够:
- 多尺度物理建模:从原子级光学特性到宏观物体动力学的统一仿真
- 实时性能优化:在保持物理准确性的同时实现实时交互性能
- 硬件感知优化:针对特定硬件架构(如 GPU、TPU、神经形态芯片)优化仿真算法
跨领域技术标准化
空间智能的发展需要建立跨领域的技术标准:
- 评估基准统一:开发如 3DMem-Bench、VSI-Bench 等标准化评估体系
- 数据集规范:建立涵盖多场景、多任务的标准化空间数据集
- 互操作性协议:确保不同世界模型系统之间的兼容性和互操作性
结语:空间智能的技术哲学
李飞飞在其文章中强调:"空间智能是我们认知构建的脚手架。" 这不仅是技术描述,更是对 AI 发展方向深刻洞察的体现。当前 AI 系统虽然能够处理语言、生成内容,但在物理世界的理解、预测和交互方面仍然存在根本性缺陷。
空间智能代表了 AI 发展的下一个前沿 —— 从纯粹的信息处理向真正的世界理解和操控的跃升。这一转变需要我们重新思考 AI 系统的架构、数据和训练方法,开发能够同时处理语义、几何、物理和动态复杂性的新型模型。
正如李飞飞所言:"我们的真正智能机器的梦想在没有空间智能的情况下将不会完整。" 对于工程师和研究者而言,这既是技术挑战,也是推动 AI 向更广泛、更深入、更实用方向发展的历史机遇。空间智能将成为连接虚拟与现实、抽象与具体、语言与行动的重要桥梁,开启 AI 系统真正理解和增强人类能力的新纪元。
参考资料
- 李飞飞:从词语到世界,空间智能是 AI 的下一前沿 - 2025 年 11 月 10 日
- Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting - arXiv, 2025 年 7 月 24 日
- Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence - arXiv, 2025 年 5 月
- 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model - arXiv, 2025 年 5 月 28 日
- NVIDIA 物理 AI 合作伙伴与都市化平台更新 - NVIDIA 官方博客,2025 年 8 月 11 日