数字红皇后：基于LLM的Core War对抗性程序演化框架

在网络安全与人工智能的交汇点上，对抗性演化正成为评估系统鲁棒性的关键手段。Sakana AI 近期提出的 Digital Red Queen（DRQ）框架，将大型语言模型（LLM）与经典编程游戏 Core War 相结合，创造了一个可控的对抗性程序演化环境。这一框架不仅展示了 LLM 在程序合成领域的潜力，更为自动化红队评估提供了可量化的技术路径。

Core War：对抗性演化的理想沙盒

Core War 诞生于 1984 年，是一个经典的编程对战游戏。在这个环境中，参与者编写名为 “warriors” 的 Redcode 程序，这些程序在共享的虚拟内存中竞争执行。Redcode 是一种简化的汇编语言，其核心特性是代码与数据共享同一地址空间，这使得自修改代码成为可能，也创造了高度动态的对抗环境。

每个 warrior 的目标是成为最后一个运行的程序，通过使对手崩溃来实现这一目标。Core War 的图灵完备性确保了其表达能力足够丰富，能够支持开放式的军备竞赛。更重要的是，它完全运行在沙盒化的模拟器中，与现实世界隔离，为研究对抗性演化提供了安全可控的测试环境。

正如论文作者在 arXiv:2601.03335v1 中指出的：“Core War is Turing-complete, making it rich enough to run any computation and, in principle, support an open-ended arms race.” 这种特性使其成为研究 Red Queen 动态的理想平台。

DRQ 框架的核心设计

Digital Red Queen 框架的核心思想借鉴了生物学中的红皇后假说：在持续变化的环境中，生物必须不断演化才能维持相对适应度。DRQ 将这一思想转化为算法，通过自博弈机制驱动程序演化。

自博弈架构

DRQ 采用迭代式自博弈设计，每轮演化一个新的 warrior 来击败所有历史 warrior。算法流程如下：

初始化：从基础 warrior w₀开始（可以是人工设计或 LLM 生成）
对抗优化：在第 t 轮，优化新 warrior wₜ以最大化其在包含所有历史 warrior 环境中的期望适应度
迭代：重复 T 轮，生成 warrior 谱系 {w₀, w₁, ..., wₜ}

这种设计确保了适应度函数随着时间动态变化，避免了静态优化导致的过拟合。历史 warrior 不会被更新，这有助于稳定训练过程并减少循环动态。

MAP-Elites 多样性保持

由于程序合成面临高度欺骗性的搜索空间，DRQ 在每轮内部使用 MAP-Elites 算法来保持多样性。MAP-Elites 将用户定义的行为描述符空间离散化为一组细胞，每个细胞最多存储一个精英解。通过限制同一细胞内的竞争，MAP-Elites 在保持全局多样性的同时施加局部选择压力。

DRQ 使用两个行为描述符轴：

生成线程总数（通过 SPL 操作码）
内存覆盖率（模拟期间访问的唯一地址数）

这两个轴捕捉了 Core War 中 warrior 策略的重要方面。网格在 log 空间中进行离散化，确保对不同规模的行为都有良好覆盖。

LLM 作为变异算子

在 DRQ 中，LLM 承担了生成和变异 warrior 的关键角色。模型接收描述 Core War 环境的系统提示，包括 Redcode 汇编语言的简明手册、操作码、寻址模式和示例 warrior。

对于生成新 warrior，LLM 被指示产生新颖的 Redcode 程序；对于变异现有 warrior，LLM 接收原始程序并被指示进行可能提高性能的修改。这种设计保持了算法的简洁性，将研究重点放在演化动态而非 LLM 特定技术上。

工程化参数与实验结果

关键参数配置

基于论文实验，以下是 DRQ 框架的关键工程参数：

历史长度 K：决定每轮优化对抗多少历史 warrior。实验显示 K=3 到 K=10（完整 DRQ）能有效减少循环行为，K=1 时循环数量增加 77%。
评估预算：每轮进行 1000 次 MAP-Elites 迭代，每次评估进行 20 次独立模拟以平均随机初始位置的影响。
核心配置：使用 8000 地址的核心大小，最大 80000 模拟时间步，每个 warrior 最多生成 8000 个并发线程。
LLM 选择：使用 GPT-4.1 mini（gpt-4.1-mini-2025-04-14），初步实验显示更大模型未带来显著性能提升。
适应度函数：采用基于生存和主导权的设计。在 N 个 warrior 和𝒯时间步的战斗中，适应度按时间分配，活着的 warrior 共享 N/𝒯的适应度。

实验结果分析

DRQ 实验揭示了几个重要现象：

通用性提升：随着 DRQ 轮数增加，warrior 的平均通用性持续提升。通用性定义为击败或平局未见人类 warrior 的比例，衡量了 warrior 对新威胁的零样本适应能力。实验显示，经过多轮演化后，warrior 能够击败或平局 84.54% 的人类设计 warrior。

行为收敛：独立 DRQ 运行产生的 warrior 在表型层面（对抗不同对手的性能向量）表现出收敛趋势，而在基因型层面（源代码嵌入）保持多样性。这种表型收敛、基因型分化的模式类似于自然界中的趋同演化。

循环动态减少：完整 DRQ（K=10）相比 K=1 减少了 77% 的循环行为。循环定义为三个 warrior 之间的石头 - 剪刀 - 布式动态，其中 a 击败 b，b 击败 c，c 击败 a。

策略分析：MAP-Elites 存档分析显示，生成大量线程的 warrior 往往表现最佳。这符合直觉：消除这样的 warrior 需要停止其所有线程，线程越多难度越大。在生成较少线程的程序中，最大化内存覆盖成为有效策略。

自动化红队评估的实践建议

基于 DRQ 框架的经验，以下是构建自动化红队评估系统的可落地建议：

1. 环境选择与适配

Core War 提供了理想的起点，但对于特定领域应用，需要考虑环境适配：

领域特定沙盒：针对网络安全、软件漏洞等场景，构建领域特定的沙盒环境
复杂度控制：从简化版本开始，逐步增加环境复杂度
安全隔离：确保所有生成代码在严格隔离的环境中执行

2. 演化算法调优

多样性机制：必须集成 MAP-Elites 或类似的质量 - 多样性算法，防止搜索过早收敛
历史管理：维护适当长度的历史对手池，平衡探索与利用
混合策略：结合 LLM 生成与随机变异，避免过度依赖模型先验

3. 评估指标设计

多维度评估：除了胜率，还应考虑代码复杂度、执行效率、资源使用等指标
对抗性测试集：构建多样化的基准测试集，包括已知攻击模式和边缘案例
泛化能力：测量对未见威胁的零样本适应能力

4. 计算资源优化

并行评估：充分利用多核 CPU/GPU 进行大规模并行模拟
预测模型：实验显示 warrior 通用性可从源代码嵌入预测（R²=0.461），可开发预测模型减少模拟开销
增量学习：重用历史评估结果，避免重复计算

5. 安全与伦理考量

沙盒强化：确保生成代码无法逃逸到真实系统
行为监控：实时监控演化过程，检测异常模式
人工监督：保持人类在关键决策中的监督角色

技术挑战与未来方向

DRQ 框架虽然展示了潜力，但仍面临多个技术挑战：

计算成本：每次评估都需要完整的 Core War 模拟，计算开销巨大。开发高效的预测模型或简化模拟器是重要方向。

搜索空间复杂性：Redcode 程序空间极其庞大，即使有 LLM 引导，有效探索仍具挑战性。需要更智能的搜索策略和启发式方法。

评估偏差：依赖特定的人类 warrior 数据集可能引入偏差。需要构建更全面、多样化的评估基准。

可扩展性：当前框架主要针对 Core War 环境，扩展到更复杂、更接近现实的场景需要架构调整。

未来研究方向包括：

将 DRQ 应用于真实网络安全场景，如漏洞发现和补丁生成
探索多智能体协同演化，模拟更复杂的生态系统动态
开发可解释性工具，理解 LLM 生成的程序策略
研究跨领域知识迁移，将 Core War 中学到的策略应用于其他对抗性领域

结语

Digital Red Queen 框架代表了对抗性程序演化的一个重要进展。通过将 LLM 与 Core War 环境相结合，它提供了一个可控的平台来研究 Red Queen 动态和自动化红队评估。虽然仍处于早期阶段，但其简洁的设计和令人鼓舞的结果为未来研究指明了方向。

在人工智能系统日益复杂的今天，提前在安全环境中研究对抗性动态变得至关重要。DRQ 这样的框架不仅有助于发现潜在的安全漏洞，还能推动更鲁棒、更自适应的人工智能系统的发展。正如论文作者所言：“Systematically exploring adversarial dynamics in controlled environments is an important step toward discovering potential dangers before they arise in real-world systems.”

随着技术的成熟，我们有理由相信，类似的对抗性演化框架将在网络安全、软件测试、甚至生物信息学等领域发挥越来越重要的作用，为构建更安全的数字世界提供技术支持。

资料来源：

arXiv:2601.03335v1 - Digital Red Queen: Adversarial Program Evolution in Core War with LLMs
corewars.org - Redcode 教程与 Core War 指南