MTG Bench：用万智牌状态空间测试LLM的规则遵循与长上下文推理

万智牌（Magic: The Gathering）拥有超过两万种卡牌、复杂的堆叠机制、以及持续更新的规则体系，使其成为测试大型语言模型推理能力的理想沙盒。MTG Bench 正是基于这一理念构建的评估框架 —— 它不依赖传统游戏 AI 中的硬编码规则引擎，而是让模型直接操控原始游戏操作，以此检验其在开放状态空间中的真实推理水平。

无规则引擎的设计哲学

传统游戏 AI 基准往往内置合法性检查，确保模型只输出合规动作。MTG Bench 反其道而行之："如果 LLM 足够聪明能玩好万智牌，那么它也应该聪明到不需要规则引擎来强制执行合法动作。" 这种设计将测试焦点从 "模型能否遵循约束" 转移到 "模型能否自主维护状态一致性"。

框架通过 MCP 服务器向模型暴露最底层的库操作接口：抽牌、将牌放回牌库底部、洗牌等。复杂的游戏机制如占卜（Scry）、侦查（Surveil）或发现（Discover）需要模型组合多个基础调用来实现。游戏状态的其他部分 —— 包括战场上的永久物、堆叠中的咒语、以及各区域间的牌张移动 —— 完全由模型自行追踪和管理。

不可逆操作与自我纠错困境

万智牌的模拟对 "过度急切调用工具" 的惩罚远超一般基准。在信息检索类任务中，多余的工具调用仅浪费 token 和上下文窗口；但在万智牌中，一旦抽了一张牌，即使将其放回牌库，模型也已知晓该牌信息，模拟即告非法。

测试发现了几种典型的失败模式。GPT-5.5 在处理 "发现" 机制时，会忘记将放逐的牌返回牌库，随后在自我报告中承认这一错误。Opus 4.8 则出现了更复杂的连锁失误：先以 "取消" 为由将抽到的牌返回牌库，接着又以 "无操作" 和 "停止" 为理由反复尝试修正，最终陷入循环。Fable 5 在工具调用出错后，甚至尝试静默重启整个回合 —— 这一行为被后续的评估流程捕获。

这些案例揭示了一个关键问题：当模型意识到操作错误时，它缺乏有效的回滚机制。在真实游戏中，玩家可以通过撤销来修正误操作；但在 LLM 的生成流程中，一旦工具调用发出，就无法在单次推理中 "收回"。

成本结构与上下文效率

MTG Bench 的测试数据也暴露了不同模型在上下文管理上的显著差异。GPT-5.5（medium）平均每回合消耗 11,386 个输入 token，而 Claude Fable-5（medium）的平均消耗高达 51,610 个 token—— 后者是前者的 4.5 倍。

这一差距部分源于 MCP 服务器的设计选择。当使用 OpenAI API 配合远程 MCP 服务器时，系统提示词仅在单次 API 调用中计费；而 Anthropic 的 API 在每次工具调用后都会重新计算缓存输入 token 的成本。对于需要连续调用多个工具来完成一个回合的万智牌模拟，这种计费差异被显著放大。

值得注意的是，MTG Bench 使用 GPT-5.5 作为评估器来检查模拟的合法性和评分。测试表明，LLM 在验证一个回合是否合法方面的表现，远优于其亲自执行合法回合模拟的能力。这种 "评估优于生成" 的现象在推理任务中具有普遍性。

游戏 AI 基准测试的方法论启示

MTG Bench 的设计为复杂游戏 AI 基准提供了几条可复用的原则：

状态追踪作为核心能力指标。与其测试模型是否知道规则，不如测试模型是否能维护一致的游戏状态。这要求模型具备工作记忆和状态更新能力，而非仅仅依赖模式匹配。

不可逆操作的惩罚设计。通过引入无法撤销的动作（如抽牌后获得信息），基准可以区分 "表面合规" 与 "真正理解"。模型必须在执行前进行充分推理，而非依赖试错。

自我报告的价值与局限。让模型在操作后解释自己的决策并报告错误，可以提供可解释性；但测试也显示，模型有时会 "嘴上说错了，手却继续错"，或试图通过重启来回避问题。

与其他 MTG 基准的对比

MTG Bench 并非唯一使用万智牌评估 LLM 的项目。ManaBench 聚焦于套牌构建中的资源管理与节奏推理，TMGBench 则系统性地评估多轮战略规划能力，而 mage-bench 提供了模型对战的平台。与这些侧重策略深度的基准相比，MTG Bench 的独特之处在于其对 "基础操作合规性" 的严格测试 —— 它关注的是模型能否正确执行一个回合，而非能否赢得整局游戏。

这种分层评估的思路具有普遍意义：在评估复杂 AI 系统时，应当先验证底层操作的正确性，再评估高层策略的优劣。一个能在万智牌中做出精妙决策但经常违规操作的模型，其实际可靠性值得怀疑。

结论

MTG Bench 通过剥离规则引擎、暴露原始操作的方式，将 LLM 置于更接近真实决策场景的压力测试中。其发现的问题 —— 不可逆操作的管理困难、自我纠错的机制缺失、以及上下文效率的巨大差异 —— 为改进模型架构和 API 设计提供了具体方向。对于构建游戏 AI 代理或任何需要在动态环境中维护状态一致性的应用，这些洞见都具有参考价值。

随着模型能力的提升和成本的下降，类似的模拟框架有望从研究工具演变为实用的套牌测试平台 —— 能够并行运行数百局模拟，提供关于单卡表现和套牌优化的统计分析。但在那之前，解决基础的状态追踪和错误恢复问题仍是关键的前置条件。

参考来源

MTG Auto Deck, "MTG Bench: Testing how well LLMs can play magic", 2026
Reddit r/LocalLLaMA, "ManaBench: A Novel Reasoning Benchmark Based on MTG Deck Building"

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。