Hotdry.

Article

程序之间的竞争:Wolfram的竞争规则学新研究

Wolfram最新研究揭示,程序竞争行为受计算不可约性主导,无法通过简单参数预测,必须系统性枚举所有可能策略才能理解竞争本质。

2026-06-07systems

在博弈论诞生近八十年后,Stephen Wolfram 于 2026 年 6 月发表了题为《Games between Programs: The Ruliology of Competition》的研究,将竞争的视角从传统的数学分析转向了计算科学的系统性探索。这项研究并非要推翻博弈论的既有成果,而是试图回答一个更根本的问题:当我们将策略视为程序,并系统性枚举所有可能的策略时,竞争的本质会呈现出怎样的图景?

从博弈论到规则学

传统博弈论关注给定收益矩阵下的最优策略,通常假设参与者具有完全理性并能进行概率化决策。Wolfram 的研究则采用了一种截然不同的方法 ——ruliology(规则学),即通过系统性枚举简单程序的所有可能规则,观察其涌现行为。

研究的核心设置是一个迭代博弈:两个智能体反复竞争,每一步各自选择两种行动之一(记为红 / 绿),收益取决于双方行动的匹配情况。每个智能体的决策策略被编码为程序 —— 可能是有限状态机、元胞自动机或图灵机 —— 其输入是对手历史行动的序列,输出是下一步的行动选择。

这种设置的关键在于确定性:每一步的行动都由程序完全确定地计算得出,而非依赖概率分布。这与传统博弈论中常见的 "混合策略" 形成鲜明对比,也为研究引入了计算科学的核心概念 —— 计算不可约性。

有限状态机竞争的策略空间

研究首先考察了有限状态机作为策略的情形。对于具有 s 个状态的有限状态机,其可能的图结构数量为 (2s²)^s,但许多结构在行为上是等价的。

2 状态机的研究显示,共有 22 种行为不同的机器。当它们彼此竞争时,获胜者是编号 26 的机器 —— 一个结构简单但能有效 "匹配" 对手行为的策略。有趣的是,获胜策略的平均收益约为 0.151,远未达到理论最大值 1,这表明在完全信息博弈中,简单机器难以建立绝对优势。

3 状态机的策略空间急剧膨胀至 956 种不同机器。研究发现,获胜机器(编号 1164)在面对 2 状态机对手时能获得约 0.593 的平均收益 —— 显著高于任何 2 状态机自身能达到的水平。这揭示了一个重要现象:更多状态的机器能够 "覆盖" 或 "共振" 对手的行为模式,从而在跨规模竞争中占据优势。

元胞自动机的策略编码

研究进一步探索了元胞自动机作为竞争策略的可能性。在这种设置下,对手的历史行动序列被用作元胞自动机的初始条件,经过与历史长度相同的演化步数后,从特定位置读取细胞值作为下一步行动。

对于 2 色元胞自动机(共 16 种规则),研究发现规则 14 是平均表现最佳的策略,其平均收益约为 -0.69。规则 14 的行为相对简单 —— 产生恒定或周期为 2 的模式,并迫使对手进入类似的行为模式。

更引人注目的是,当引入 3 色元胞自动机(共 19683 种规则)与 2 状态有限状态机竞争时,3 色元胞自动机表现出微弱但明确的优势。这表明,更丰富的状态空间确实能够带来竞争优势,但这种优势并非来自于更复杂的计算,而往往来自于能够 "覆盖" 更多对手行为的简单策略。

计算不可约性:竞争的根本限制

研究的核心发现涉及计算不可约性(computational irreducibility)——Wolfram 在《一种新科学》中提出的核心概念。计算不可约性指出,某些计算过程无法被 "捷径化":要预知其输出,唯一的方法是实际运行完整的计算。

在程序竞争的语境下,这意味着:要预知两个程序竞争的结果,基本上别无选择,只能实际运行它们并观察。不存在通用的数学定理或简单参数能够预测哪种策略会获胜。

这一发现对博弈论和策略研究具有深远影响。它表明,寻找 "最优策略" 的努力在计算层面受到根本限制 —— 我们无法通过分析收益矩阵或策略结构来预判竞争结果,而必须进行系统性的枚举和测试。

适应性演化与 "通用获胜者"

研究还探讨了通过适应性演化寻找获胜策略的可能性。通过随机突变(改变状态颜色或边连接)并选择性地保留提高收益的突变,可以观察到典型的 "适应度曲线"—— 大多数突变无益,但偶尔会出现显著提升性能的 "突破"。

一个引人注目的发现是 **"通用获胜者"** 的涌现:一个具有 10 个状态的有限状态机,通过适应性演化,能够对所有 22 种 2 状态机实现收益 +1(即全胜)。这个机器之所以能够 "通用获胜",是因为它足够大,可以为不同类型的对手配备 "专门化的子策略"—— 不同的对手会激活机器的不同状态子集。

然而,适应性演化产生的获胜策略往往难以解释其 "机制"。演化过程将各种 "不可约计算块" 组合在一起,这些组合 "恰好" 在竞争中取得成功,但其内部逻辑往往无法被简洁地描述或理解。

对 AI 竞争与经济建模的启示

这项研究对当代多个领域具有直接相关性:

AI 智能体竞争:随着多智能体 AI 系统的发展,理解程序间竞争行为变得愈发重要。研究表明,预测 AI 竞争的结果可能比预期的更加困难 —— 计算不可约性意味着我们可能无法通过理论分析预判复杂 AI 系统的交互结果。

经济与市场建模:传统经济学依赖于理性行为假设和均衡分析。Wolfram 的研究提示,当参与者采用程序化的策略时,市场动态可能表现出计算不可约的复杂性,简单的均衡模型可能无法捕捉真实的行为模式。

生物进化:研究将竞争策略的演化与生物进化联系起来,提示自然选择可能也在 "探索" 一个计算上不可约的策略空间,产生的适应性行为往往无法被简化为简单的优化原则。

局限与展望

研究目前仅覆盖了相对简单的程序模型(小规模有限状态机、2-3 色元胞自动机、小规模图灵机)。实际应用中的 AI 系统或生物系统远比这些模型复杂,其行为可能展现出更丰富的现象。

然而,计算等价原理(Principle of Computational Equivalence)提示,一旦系统达到一定的计算复杂度阈值,其行为在计算能力上是等价的。这意味着,尽管简单模型无法完全复现复杂系统的所有细节,但它们可能捕捉到竞争行为的某些普遍特征。

未来的研究可以探索更大规模的程序空间、不同类型的收益结构(如囚徒困境),以及多智能体竞争(而非两两竞争)的情形。每一项扩展都可能揭示新的计算现象和竞争策略。

结论

Wolfram 的这项研究为理解竞争行为提供了一个全新的计算视角。核心洞见是:竞争行为的复杂性根植于计算的不可约性—— 我们无法通过简单的分析或参数化来预测竞争结果,而必须诉诸系统性的枚举和实验。

这一发现既令人沮丧又令人振奋。沮丧之处在于,它限制了我们对竞争结果的预测能力;振奋之处在于,它揭示了竞争行为中蕴含的丰富计算可能性 —— 简单的规则可以产生难以预料的复杂策略,而适应性演化可以在这一广阔的策略空间中导航,发现人类设计者难以构思的获胜方案。

对于工程师和研究者而言,这项研究提示了一个实践原则:在设计竞争系统(无论是 AI 智能体、市场机制还是进化算法)时,不要过度依赖理论分析来预测最优策略,而应投入资源进行系统性的实验和演化搜索 —— 因为竞争的真相,往往隐藏在计算的不可约性之中。


参考来源

systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com