Hotdry.

Article

MTG Bench:用万智牌状态空间测试LLM的规则遵循与长上下文推理

通过无规则引擎的万智牌模拟框架,评估LLM在复杂游戏状态中的多轮策略决策、不可逆操作管理与自我纠错能力。

2026-06-12ai-systems

万智牌(Magic: The Gathering)拥有超过两万种卡牌、复杂的堆叠机制、以及持续更新的规则体系,使其成为测试大型语言模型推理能力的理想沙盒。MTG Bench 正是基于这一理念构建的评估框架 —— 它不依赖传统游戏 AI 中的硬编码规则引擎,而是让模型直接操控原始游戏操作,以此检验其在开放状态空间中的真实推理水平。

无规则引擎的设计哲学

传统游戏 AI 基准往往内置合法性检查,确保模型只输出合规动作。MTG Bench 反其道而行之:"如果 LLM 足够聪明能玩好万智牌,那么它也应该聪明到不需要规则引擎来强制执行合法动作。" 这种设计将测试焦点从 "模型能否遵循约束" 转移到 "模型能否自主维护状态一致性"。

框架通过 MCP 服务器向模型暴露最底层的库操作接口:抽牌、将牌放回牌库底部、洗牌等。复杂的游戏机制如占卜(Scry)、侦查(Surveil)或发现(Discover)需要模型组合多个基础调用来实现。游戏状态的其他部分 —— 包括战场上的永久物、堆叠中的咒语、以及各区域间的牌张移动 —— 完全由模型自行追踪和管理。

不可逆操作与自我纠错困境

万智牌的模拟对 "过度急切调用工具" 的惩罚远超一般基准。在信息检索类任务中,多余的工具调用仅浪费 token 和上下文窗口;但在万智牌中,一旦抽了一张牌,即使将其放回牌库,模型也已知晓该牌信息,模拟即告非法。

测试发现了几种典型的失败模式。GPT-5.5 在处理 "发现" 机制时,会忘记将放逐的牌返回牌库,随后在自我报告中承认这一错误。Opus 4.8 则出现了更复杂的连锁失误:先以 "取消" 为由将抽到的牌返回牌库,接着又以 "无操作" 和 "停止" 为理由反复尝试修正,最终陷入循环。Fable 5 在工具调用出错后,甚至尝试静默重启整个回合 —— 这一行为被后续的评估流程捕获。

这些案例揭示了一个关键问题:当模型意识到操作错误时,它缺乏有效的回滚机制。在真实游戏中,玩家可以通过撤销来修正误操作;但在 LLM 的生成流程中,一旦工具调用发出,就无法在单次推理中 "收回"。

成本结构与上下文效率

MTG Bench 的测试数据也暴露了不同模型在上下文管理上的显著差异。GPT-5.5(medium)平均每回合消耗 11,386 个输入 token,而 Claude Fable-5(medium)的平均消耗高达 51,610 个 token—— 后者是前者的 4.5 倍。

这一差距部分源于 MCP 服务器的设计选择。当使用 OpenAI API 配合远程 MCP 服务器时,系统提示词仅在单次 API 调用中计费;而 Anthropic 的 API 在每次工具调用后都会重新计算缓存输入 token 的成本。对于需要连续调用多个工具来完成一个回合的万智牌模拟,这种计费差异被显著放大。

值得注意的是,MTG Bench 使用 GPT-5.5 作为评估器来检查模拟的合法性和评分。测试表明,LLM 在验证一个回合是否合法方面的表现,远优于其亲自执行合法回合模拟的能力。这种 "评估优于生成" 的现象在推理任务中具有普遍性。

游戏 AI 基准测试的方法论启示

MTG Bench 的设计为复杂游戏 AI 基准提供了几条可复用的原则:

状态追踪作为核心能力指标。与其测试模型是否知道规则,不如测试模型是否能维护一致的游戏状态。这要求模型具备工作记忆和状态更新能力,而非仅仅依赖模式匹配。

不可逆操作的惩罚设计。通过引入无法撤销的动作(如抽牌后获得信息),基准可以区分 "表面合规" 与 "真正理解"。模型必须在执行前进行充分推理,而非依赖试错。

自我报告的价值与局限。让模型在操作后解释自己的决策并报告错误,可以提供可解释性;但测试也显示,模型有时会 "嘴上说错了,手却继续错",或试图通过重启来回避问题。

与其他 MTG 基准的对比

MTG Bench 并非唯一使用万智牌评估 LLM 的项目。ManaBench 聚焦于套牌构建中的资源管理与节奏推理,TMGBench 则系统性地评估多轮战略规划能力,而 mage-bench 提供了模型对战的平台。与这些侧重策略深度的基准相比,MTG Bench 的独特之处在于其对 "基础操作合规性" 的严格测试 —— 它关注的是模型能否正确执行一个回合,而非能否赢得整局游戏。

这种分层评估的思路具有普遍意义:在评估复杂 AI 系统时,应当先验证底层操作的正确性,再评估高层策略的优劣。一个能在万智牌中做出精妙决策但经常违规操作的模型,其实际可靠性值得怀疑。

结论

MTG Bench 通过剥离规则引擎、暴露原始操作的方式,将 LLM 置于更接近真实决策场景的压力测试中。其发现的问题 —— 不可逆操作的管理困难、自我纠错的机制缺失、以及上下文效率的巨大差异 —— 为改进模型架构和 API 设计提供了具体方向。对于构建游戏 AI 代理或任何需要在动态环境中维护状态一致性的应用,这些洞见都具有参考价值。

随着模型能力的提升和成本的下降,类似的模拟框架有望从研究工具演变为实用的套牌测试平台 —— 能够并行运行数百局模拟,提供关于单卡表现和套牌优化的统计分析。但在那之前,解决基础的状态追踪和错误恢复问题仍是关键的前置条件。


参考来源

  • MTG Auto Deck, "MTG Bench: Testing how well LLMs can play magic", 2026
  • Reddit r/LocalLLaMA, "ManaBench: A Novel Reasoning Benchmark Based on MTG Deck Building"

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com