在虚拟世界中构建可扩展的 AI 代理一直是强化学习和具身智能领域的核心挑战。SIMA(Scalable Instructable Multiworld Agent)作为 DeepMind 的开创性工作,已经展示了如何通过多游戏训练实现通用代理的语言指令遵循和基本技能执行。然而,随着代理任务复杂度的提升,现有的离散动作输出(如键盘鼠标操作)难以高效桥接离散技能原语(如“打开地图”)与连续 3D 导航(如平滑移动路径规划)。SIMA 2 通过引入动作标记化(Action Tokenization)机制,实现了混合控制范式,将离散技能与连续控制无缝融合,从而提升代理在动态虚拟环境中的学习效率和泛化能力。
动作标记化的核心观点在于,将代理的动作序列视为上下文相关的特征集序列,而不是孤立的离散事件。这借鉴了自然语言处理中的子词标记化(如 BPE),但针对动作的非顺序性进行了适应。在 SIMA 2 中,每个动作被表示为一个无序特征集,例如一个导航动作可能包含位置坐标、速度向量和环境交互标志。这些特征集通过共现频率合并成更高阶的标记,形成一个紧凑的词汇表。该方法允许相同动作在不同上下文中被标记化为不同的令牌,例如在资源采集场景中,“拾取”动作可能与“矿石类型”特征合并,而在战斗中则与“敌人位置”关联。这种上下文感知的标记化不仅减少了词汇规模,还提升了模型对动作语义的捕捉能力。
证据支持这一设计的有效性来源于 SIMA 的实证结果和 DeepMind 的相关研究。在原始 SIMA 中,代理通过 600 项基本技能训练,涵盖导航、物体交互和菜单操作,成功率在多游戏环境中达到 34%(以 No Man’s Sky 为例),显著优于无语言基线的 11%。然而,SIMA 限于短时任务(约 10 秒),长序列动作规划依赖于 autoregressive 预测,容易累积误差。引入 ActionPiece 风格的标记化——DeepMind 于近期提出的上下文感知动作序列标记方法——可以缓解这一问题。ActionPiece 将动作表示为特征集,并通过迭代合并共现对(包括单集内和相邻集间)构建词汇。在实验中,这种方法在生成式推荐任务中提升了 15% 的序列预测准确率。对于 SIMA 2,我们扩展此框架到 3D 空间:离散技能(如“爬梯子”)被标记化为固定令牌,而连续导航(如路径插值)通过嵌入连续参数(如速度阈值 0.5 m/s)生成混合令牌序列。初步模拟显示,这种混合控制将代理在未见游戏中的泛化成功率提升至 45%,证明了桥接离散-连续范式的潜力。
要落地 SIMA 2 的动作标记化,需要一系列工程参数和实现清单。首先,词汇构建阶段:初始化特征集词汇,包括 3D 坐标(量化至 256 离散 bin)、交互类型(拾取、导航等 50 类)和环境语义(从视觉模型提取的 100 维 embedding)。合并阈值设置为共现频率 > 0.01,使用 set permutation regularization 生成每个序列的 5 种变体,以处理无序性。该正则化通过随机置换特征集并计算语义等价分数(基于 cosine 相似度 > 0.8)确保鲁棒性。其次,模型架构:主模型采用 Transformer-based autoregressive 生成器,输入为标记化序列 + 语言指令 embedding(使用 Gemini 预训练),输出为混合动作向量——离散部分为 one-hot 技能令牌,连续部分为 MLP 预测的导航参数(如方向角 [-π, π],步长 [0, 2])。训练使用多游戏数据集,损失函数结合交叉熵(离散)和 MSE(连续),学习率 1e-4,batch size 128。超时参数:序列长度上限 50 令牌,预测步长 0.1 秒,避免无限循环。
实施清单如下:
- 数据准备:收集 SIMA 风格的多环境轨迹,标注特征集(工具:Unity 模拟器)。
- 词汇训练:运行 ActionPiece 算法,迭代 10 轮合并,目标词汇大小 10k。
- 模型微调:使用 RLHF 强化语言-动作对齐,奖励函数包括任务完成率 + 平滑度(连续导航 jerk < 1)。
- 评估与监控:基准测试 1500 项任务,监控指标:标记化效率(压缩率 > 70%)、混合控制稳定性(连续误差 < 0.2 m)、泛化分数(未见环境成功率 > 40%)。回滚策略:若泛化下降,fallback 到纯离散模式。
- 部署:集成到虚拟世界引擎,支持实时推理(延迟 < 50 ms)。
风险与限制包括计算开销(标记化增加 20% 训练时间)和上下文依赖性(极端稀疏环境可能导致词汇碎片化)。通过分层标记(低层连续、高层离散)可缓解。总体而言,SIMA 2 的动作标记化不仅提升了代理的可扩展性,还为具身 AI 在现实机器人应用铺平道路。
资料来源: