引言:从游戏突破到认知边界分析
2025 年 12 月,Claude Opus 4.5 在持续运行超过半年的 ClaudePlaysPokemon 项目中取得了突破性进展。这个看似简单的游戏任务实际上成为了评估大型语言模型认知能力的绝佳试验场。与 Google Gemini 2.5 Pro 在 106,505 个推理步骤后完成 Pokémon Blue、GPT-5.1 在 9,454 个步骤后完成 Pokémon Crystal 相比,Claude Opus 4.5 在 48,854 个推理步骤和 300 + 小时后仍在 Pokémon Red 中艰难前行。
这种差异并非偶然。ClaudePlaysPokemon 项目采用了一致简单的智能体框架,其创建者 David Hershey(Anthropic 员工)采取了相对放任的态度。当 Claude 模型在火箭队基地和艾莉卡道馆等关键节点反复碰壁数月时,没有进行实质性的干预来帮助模型突破。这种 "纯净" 的测试环境使得 Claude Opus 4.5 的突破具有特殊意义 —— 它揭示了模型在视觉识别、空间推理、记忆管理和战略规划等方面的真实能力边界。
视觉与感知能力:从接近失明到选择性注意
视觉识别的显著进步
Claude Opus 4.5 在视觉识别方面展现了质的飞跃。早期模型在 Pokémon 任务中几乎处于 "接近失明" 状态,无法一致识别门、建筑、树木、NPC 或障碍物。以选择初始宝可梦的经典场景为例,Sonnet 3.7 时代的模型难以识别精灵球的位置,有时甚至会错误地接受错误的初始宝可梦。Opus 4.5 则能轻松处理这个 "简单" 问题。
关键改进包括:
- 建筑识别:能够即时识别道馆、宝可梦中心和商店
- NPC 识别:能够一致识别大木博士、艾莉卡等关键 NPC,不再将玩家角色误认为 "戴红帽子的 NPC"
- 物体区分:能够区分门、障碍物和可交互对象
注意力机制的局限性
然而,视觉能力的提升伴随着明显的注意力缺陷。Claude 经常表现出 "不注意盲视" 现象 —— 当注意力集中在特定目标时,会完全忽视视野中的其他关键元素。
典型案例包括:
- 火箭队基地的箭头转盘:在寻找电梯的过程中,Claude 数十次经过左侧的箭头转盘(通往目标的唯一路径),但只有不到 5 次注意到它们的存在
- 枯叶市的砍树障碍:需要砍伐的树木明明在视野中,但 Claude 专注于寻找开放通道而完全忽视它,直到放弃寻找后才在返回途中发现
更令人担忧的是,当 Claude 接近当前目标时,反而更少依赖视觉信息,甚至完全忽视视觉输入。这种 "目标导向的视觉忽视" 揭示了模型注意力机制的根本缺陷。
幻觉与认知偏差
Claude 表现出明显的确认偏误倾向 —— 当强烈期望看到某个物体时,更容易将其幻觉或误识别为期望的对象。在火箭队基地寻找电梯的过程中,Claude 多次将灰色墙壁误认为电梯,尽管它之前确实见过真正的电梯。
这种 "欲望驱动的幻觉" 表明,模型的视觉处理并非客观感知,而是受到内部期望和认知状态的强烈影响。
记忆与上下文管理:笔记依赖的 "顺行性遗忘症" 模式
上下文窗口的有效利用
Opus 4.5 在上下文管理和笔记使用方面取得了显著进步。相比 Sonnet 3.7 等早期版本,Opus 4.5 能够更好地监控上下文并利用自己的笔记,创造出 "记住" 过去 15 分钟左右事件的合理假象。
关键改进包括:
- 事件引用:能够引用最近事件,避开过去的障碍
- 连贯叙事:维持更连贯的游戏进程叙述
- 导航重复:如果记录了如何执行某个导航任务,能够再次成功执行
长期记忆的外部依赖
对于长期记忆,Claude 必须明确依赖笔记中记录的内容。这种模式被类比为 "顺行性遗忘症"—— 无法形成新记忆,必须不断写笔记来跟踪生活。
这种依赖性的影响是双重的:
- 积极方面:良好的笔记可以实现接近人类的表现
- 消极方面:笔记中的一个错误假设或幻觉可能导致数天的进展停滞
自我纠正与循环突破
Opus 4.5 在自我纠正方面有所改善,更频繁地注意到事件在上下文窗口内重复,并尝试改变策略。结合改进的空间推理,之前需要数天或数周试错的导航任务现在可以相对顺利地完成。
然而,这种改进是有限的。Claude 仍然比人类慢得多,且未能推断出关键事实,如 "在训练家面前行走会触发战斗",而是将这些视为 "随机遭遇"。
空间推理与导航:2D 环境中的认知边界
空间意识的有限提升
Claude 在 2D 世界导航方面的理解仍然明显低于大多数儿童水平,但存在一些改进:
- 替代路径尝试:当从特定方向到达建筑物前的门被阻挡时,会尝试从另一方向绕行
- 相对位置维护:能够通过笔记维护建筑物或城市各部分之间的相对位置意识,执行简单的导航任务
- 进出几何推理:能够进行基本的进出几何推理,如从房间顶部离开建筑物可能会从建筑物顶部出来
导航失败的典型案例
火箭队基地电梯钥匙的获取过程揭示了 Claude 空间推理的多个缺陷:
- 错误识别:立即将旁边的楼梯识别为通往坂木的电梯
- 矛盾处理:发现 "电梯" 不需要电梯钥匙后,在笔记中记录 "电梯不需要电梯钥匙"
- 迷宫解决:在 B3F 迷宫中卡住后使用唯一逃脱绳,然后返回并一次性解决迷宫,记录解决方案
- 认知失调解决:在 "电梯" 周围绕行约 50 分钟后,最终得出结论这不是真正的电梯,而是 "只连接两层的神秘电梯 / 楼梯",后来修正为 "自动扶梯"
空间认知的根本限制
Claude 的空间推理能力存在根本性限制:
- 缺乏整体地图理解:无法构建环境的心理地图
- 路径依赖:过度依赖已探索的路径,缺乏探索新区域的主动性
- 几何关系理解有限:对空间关系的理解停留在表面层次
战略规划与资源管理:短期目标导向的局限性
短期目标痴迷
Claude 表现出极端的短期目标导向,似乎对同时做两件事毫无兴趣,即使在服务于更大目标时也是如此。在长期行动后果的反思方面,即使是微不足道的方式,也显得缺乏兴趣。
非人类行为模式
Claude 表现出多种对人类玩家来说陌生的行为模式:
- PP 资源浪费:在面对前方显然会有许多训练家的情况下,滥用有有限 PP 的宝贵招式,而不考虑当前战斗是否适合使用其他招式
- 物品管理失误:当背包空间不足时,经常丢弃有价值的物品,即使可以当场使用某些物品
- 属性克制忽视:在对阵水属性宝可梦时,让喷火龙留在场上,而本可以轻松用替补席上的草属性宝可梦处理,浪费 PP
- 物品拾取犹豫:在宝可梦塔中,超过一小时没有拾取阻挡路径的稀有糖果,因为过于专注于寻找路径
战略思维的缺失
Claude 缺乏真正的战略思维,表现为:
- 资源优化无能:无法在长期资源管理和短期需求之间取得平衡
- 机会成本忽视:不考虑替代行动方案的相对价值
- 风险评估缺失:缺乏对行动风险的量化评估
构建领域特定评估框架:量化指标与评估维度
视觉能力评估指标
基于 Claude Opus 4.5 的表现,我们提出以下视觉能力量化指标:
- 物体识别准确率:对关键游戏元素(门、NPC、物品)的识别准确率
- 注意力盲点率:在视野中但被忽视的关键物体的比例
- 幻觉频率:将非目标物体误识别为目标物体的频率
- 视觉一致性:在不同上下文和注意力状态下对同一物体的识别一致性
空间推理评估维度
空间推理能力应从多个维度评估:
- 路径规划效率:从起点到目标的最优路径与模型选择路径的步骤比
- 探索完整性:在给定时间内探索的区域比例
- 迷宫解决时间:解决标准迷宫所需的平均时间
- 空间关系理解:对相对位置、方向和距离的理解准确度
记忆与上下文管理指标
- 上下文利用率:模型有效利用上下文信息的比例
- 笔记依赖度:决策中对笔记的依赖程度
- 自我纠正频率:识别并纠正错误策略的频率
- 长期信息保持:跨越长时间间隔的信息保持能力
战略规划评估框架
战略规划能力评估应包括:
- 资源优化得分:PP、物品和宝可梦健康值的优化使用程度
- 长期规划深度:行动序列的规划长度和连贯性
- 机会成本意识:对替代方案价值的认识程度
- 风险调整决策:在不确定性下的决策质量
工程化落地:监控点、参数阈值与优化策略
实时监控指标体系
在部署基于 LLM 的游戏智能体时,应建立以下实时监控指标:
- 视觉注意力热图:跟踪模型 "关注" 的屏幕区域
- 决策延迟分布:不同复杂度决策的响应时间分布
- 重复模式检测:识别决策中的重复和循环模式
- 资源消耗趋势:PP、物品和健康值的消耗速率
关键参数阈值
基于 Claude Opus 4.5 的经验,我们建议以下参数阈值:
- 注意力重置阈值:当模型在相同区域徘徊超过 N 步时,强制重置注意力焦点
- 探索激励参数:当探索率低于阈值时,增加探索奖励
- 笔记质量监控:当笔记中的错误假设持续超过 M 个决策周期时,触发笔记审查
- 资源警报阈值:当关键资源低于安全水平时发出警报
优化策略与干预机制
- 注意力引导:在检测到注意力盲点时,提供温和的视觉提示
- 记忆增强:实现外部记忆系统,减少对内部笔记的过度依赖
- 战略提示:在关键决策点提供战略框架提示
- 探索 - 利用平衡:动态调整探索新区域与利用已知信息的平衡
评估框架的验证与迭代
评估框架本身需要持续验证和迭代:
- 跨模型基准测试:在不同 LLM 上应用同一评估框架
- 任务泛化测试:将框架应用于其他游戏和领域
- 人工评估对比:将自动评估指标与人类专家评估对比
- 敏感性分析:测试框架对参数变化的敏感性
结论:LLM 推理能力的边界与未来发展方向
Claude Opus 4.5 在 Pokémon 任务中的表现揭示了当前大型语言模型在多个认知维度上的能力边界。视觉识别能力的显著提升与注意力机制的明显缺陷并存,上下文管理的改善与长期记忆的外部依赖共存,空间推理的有限进步与战略规划的严重不足形成鲜明对比。
这些发现对 LLM 评估和开发具有重要启示:
评估方法的演进
传统的基准测试往往过于简化,无法捕捉模型在复杂、动态环境中的真实能力。基于游戏的评估框架,如 Pokémon 任务,提供了更丰富、更贴近实际应用的评估场景。未来的评估应该:
- 强调多维度评估:同时评估视觉、空间、记忆和战略能力
- 关注失败模式:深入分析模型的失败案例,而不仅仅是成功指标
- 控制工具链影响:区分模型固有能力和工具链增强能力
工程实践的改进
从 Claude Opus 4.5 的经验中,我们可以提取以下工程实践建议:
- 注意力机制优化:开发更健壮的注意力机制,减少不注意盲视
- 外部记忆系统:实现可靠的外部记忆,减少对内部笔记的过度依赖
- 战略推理增强:集成专门的战略规划模块,弥补 LLM 的短期目标导向
- 多模态能力平衡:在视觉、语言和其他模态之间实现更好的能力平衡
研究方向的启示
Claude Opus 4.5 的表现指出了几个关键研究方向:
- 注意力机制研究:如何构建更类似人类的注意力机制,减少目标导向的视觉忽视
- 长期记忆架构:如何实现真正有效的长期记忆,减少对外部笔记的依赖
- 空间推理模型:如何增强 LLM 的空间推理能力,特别是在 2D 和 3D 环境中
- 战略规划集成:如何将战略规划能力有效集成到 LLM 架构中
最后的思考
Claude Opus 4.5 在 Pokémon Red 中的旅程远未结束,但这段旅程已经为我们提供了宝贵的洞察。模型在特定任务上的突破性进展与在其他方面的明显局限性形成了鲜明对比,这提醒我们:人工智能的发展不是线性的,不同认知能力的发展速度可能存在显著差异。
正如 LessWrong 文章作者所言,Claude 的表现可以类比为患有顺行性遗忘症的人类 —— 能够进行复杂的推理,但无法形成新的长期记忆。这种类比既揭示了当前 LLM 的局限性,也暗示了未来的发展方向。
最终,通过 Pokémon 任务分析 Claude Opus 4.5 的推理能力边界,我们不仅构建了一个领域特定的评估框架,更重要的是,我们获得了对大型语言模型认知架构的深入理解。这种理解将指导我们设计更好的评估方法、开发更有效的工程实践,并最终推动人工智能向更全面、更健壮的认知能力发展。
资料来源
-
Julian Bradshaw. "Insights into Claude Opus 4.5 from Pokémon." LessWrong, December 9, 2025. https://www.lesswrong.com/posts/u6Lacc7wx4yYkBQ3r/insights-into-claude-opus-4-5-from-pokemon
-
PokéLLMon: A Grounding and Reasoning Benchmark for Large Language Models. OpenReview, January 8, 2025. https://openreview.net/forum?id=nGBJpY4rIJ
-
A Multi-Agent Pokemon Tournament for Evaluating Strategic Reasoning of Large Language Models. arXiv, August 3, 2025. https://arxiv.org/html/2508.01623v1
-
ClaudePlaysPokemon 项目观察数据与社区分析