在机器人从执行简单预设指令向自主理解物理世界转变的过程中,推理能力已成为衡量实体智能水平的关键指标。Google DeepMind 于 2026 年 4 月 14 日发布的 Gemini Robotics-ER 1.6,正是这一技术演进中的重要里程碑。与传统的视觉语言模型不同,该模型专注于实体推理(Embodied Reasoning),旨在让机器人能够在复杂的真实环境中理解空间关系、规划动作序列并判断任务是否成功完成。本文将从技术架构、核心能力、关键数据与实际应用四个维度,系统解析 Gemini Robotics-ER 1.6 的创新之处及其对机器人技术发展的深远影响。
一、定位与架构:从底层控制到高层推理的分工转变
Gemini Robotics-ER 1.6 的设计哲学区别于传统机器人控制系统的核心在于其角色定位。该模型并非直接输出电机控制信号的低层控制器,而是承担高层推理规划的 “机器人大脑”。当机器人接收到自然语言指令后,Gemini Robotics-ER 1.6 能够解析指令意图、分析视觉输入、推理物体间空间关系,并根据需要调用外部工具完成信息检索或动作执行。这种 “推理优先” 的架构设计,使得模型能够处理更加复杂和模糊的任务描述,而不再局限于结构化的固定指令集。
在技术实现层面,模型原生支持调用 Google Search 获取外部信息、集成视觉语言动作模型(VLA)执行具体操作、以及调用用户自定义的第三方函数。这种工具调用能力赋予了 Gemini Robotics-ER 1.6 高度的扩展性和灵活性,开发者可以根据具体应用场景构建定制化的机器人系统。模型通过 Gemini API 和 Google AI Studio 向开发者开放,配套提供了 Colab 示例笔记本帮助快速上手配置与提示词设计。
二、核心能力解析:空间推理与多模态理解的深度融合
Gemini Robotics-ER 1.6 在多个实体推理子任务上实现了显著突破,其中最值得关注的是指向(Pointing)、计数(Counting)、任务成功检测(Success Detection)和仪表读数(Instrument Reading)四项能力。这些能力共同构成了机器人在物理世界中自主执行任务的基础。
指向能力是空间推理的基石。模型能够精确指向图像中的特定物体、计算物体数量、表达 “从 A 到 B” 的空间关系、规划抓取轨迹,并理解复杂的约束条件。例如,当收到 “指向所有可放入蓝色杯子的物体” 这类复合指令时,模型需要同时进行物体识别、尺寸估算和空间包含关系推理。Gemini Robotics-ER 1.6 相比前代版本和 Gemini 3.0 Flash,在指向精度和复杂约束理解方面展现出明显优势。根据官方基准测试对比图,该模型在指向任务上的成功率显著优于 Gemini Robotics-ER 1.5,官方描述为具有 “明显优势”。
任务成功检测是实现真正自主性的关键环节。机器人不仅需要知道如何开始执行任务,更需要判断任务何时完成。Gemini Robotics-ER 1.6 在多视角推理方面取得重要进展,能够综合处理来自不同摄像头(如顶视视角和腕部视角)的画面信息。即便是存在物体遮挡或动态变化的环境,模型依然能够准确判断任务是否达成,从而决定是重试当前步骤还是进入下一阶段。这一能力直接决定了机器人能否在无人干预的情况下完成复杂的多步骤任务。
仪表读数是 Gemini Robotics-ER 1.6 引入的全新能力,也是与 Boston Dynamics 深度合作的成果体现。在工业设施巡检场景中,机器人需要读取压力表、液位计、数显屏等多种类型的仪表。模型通过 “代理视觉”(Agentic Vision)技术,将视觉推理与代码执行相结合:首先对仪表图像进行局部放大以获取微小刻度细节,然后利用指向和代码执行估算比例和间隔,最终结合世界知识解读读数含义。
三、关键数据:准确率提升的量化指标
Gemini Robotics-ER 1.6 在性能指标上展现出显著进步。最具代表性的数据来自仪表读数任务:使用代理视觉技术后,仪表读数准确率从 Gemini Robotics-ER 1.5 的 23% 提升至 93%,这一跨越式的进步标志着实体 AI 在工业巡检领域的实用化迈出了关键一步。即便是关闭代理视觉的基准测试模式,仪表读数准确率也达到了 86%,同样远超前身版本。
在安全性方面,Google 明确表示 Gemini Robotics-ER 1.6 是截至目前最安全的机器人模型。在基于真实伤害报告的文本和视频场景测试中,该模型相比 Gemini 3.0 Flash 基线版本在文本任务上提升 6%、在视频任务上提升 10% 的伤害风险感知准确率。此外,在安全指令遵循(Safety Instruction Following)基准测试中,Gemini Robotics-ER 1.6 相比 1.5 版本展现出显著改进,能够更好地遵循物理安全约束,如 “不要处理液体” 或 “不要抓取超过 20 公斤物体” 等具体指令。
四、应用前景与开发者接入
Gemini Robotics-ER 1.6 的首批实际应用场景集中在工业设施巡检领域。与 Boston Dynamics Spot 机器人的集成已验证了模型在复杂室内环境中自主导航和仪表读取的能力。Spot 机器人可以自主遍历设施、拍摄各类仪表图像,并通过 Gemini Robotics-ER 1.6 解读读数,整个过程无需人工干预。这种能力对于大型工业设施的日常巡检具有重要价值,能够显著降低人力成本并提高巡检频率和可靠性。
展望未来,该模型的技术特性能进一步扩展至服务业机器人、家庭助理、仓储物流等多个领域。其跨平台适配能力意味着开发者无需为每种机器人形态重新训练模型,只需在高层推理层进行适配即可,大大降低了技术迁移成本。
对于有意接入的开发者,Google 提供了清晰的上手路径。通过 Google AI Studio 可直接体验 Gemini Robotics-ER 1.6 Preview 模型,配套的 GitHub 仓库提供了从配置到提示词设计的完整示例。对于有特定能力需求但当前功能受限的开发者,Google 开放了反馈表单,提交 10 至 50 张标注图像说明特定失败场景,即可参与模型后续迭代的共建。
综合来看,Gemini Robotics-ER 1.6 代表了实体 AI 从概念验证走向工程实用的重要一步。其在空间推理、多视角理解和工具调用方面的突破,为机器人赋予了更接近人类的空间认知能力。随着更多开发者接入和场景拓展,实体智能的规模化应用前景值得持续关注。
资料来源:本文核心事实与数据源自 Google DeepMind 官方博客对 Gemini Robotics-ER 1.6 的技术发布说明。