递归自我改进的工程化路径：Anthropic内部实践与安全保障机制解析

递归自我改进（Recursive Self-Improvement, RSI）正从科幻概念走向工程现实。Anthropic 近期发布的内部数据显示，截至 2026 年 5 月，超过 80% 的合并代码由 Claude 编写，工程师人均代码产出量达到 2024 年的 8 倍。这些数字背后，是一条清晰的从 "人类主导" 到 "AI 辅助" 再到 "自主代理" 的技术演进路径，以及一套正在成型的安全保障体系。

技术演进的四个阶段

Anthropic 将 AI 在软件开发中的角色演进划分为四个阶段。第一阶段（2021-2023）完全依赖人工编写代码；第二阶段（2023-2025）引入聊天机器人辅助生成代码片段，工程师需要手动复制粘贴；第三阶段（2025-2026）编码代理能够独立编写和编辑完整文件；第四阶段（今天）自主代理不仅可以运行代码，还能将数小时的工作委托给其他代理。

这种演进在能力指标上得到了验证。METR 的评估显示，AI 系统可靠完成的任务的时长跨度正在以每 4 个月翻一番的速度增长 —— 从 2024 年 3 月的 4 分钟，到 2025 年的 1.5 小时，再到 2026 年的 12 小时。如果这一趋势持续，AI 今年内可能具备完成需要人类数日才能完成的任务的能力。

更关键的是研究能力的突破。在 2026 年 4 月的一项实验中，Claude 代理被赋予一个开放式 AI 安全问题 —— 弱模型能否可靠监督强模型。代理自主提出假设、设计实验、与并行代理共享发现并迭代优化，最终在 800 个累计计算小时内弥合了 97% 的性能差距，而两名人类研究人员在一周内仅弥合了 23%。尽管人类仍负责选择问题和制定评分标准，但实验设计的核心环节已实现高度自动化。

工程实践中的关键转折

代码生成能力的质变带来了工程实践的结构性转变。在 Anthropic 内部，代码审查已成为新的瓶颈 —— 这正是 Amdahl 定律在 AI 开发中的体现：当代码生成速度远超人类审查速度时，审查环节成为限制整体产出的约束条件。

为应对这一挑战，Anthropic 部署了自动化 Claude 审查器，在代码合并前检查缺陷、安全漏洞和其他问题。回顾性分析显示，这一工具本可以在过去捕获约三分之一的生产事故。从 2025 年末到 2026 年，Claude 编写代码的质量从 "略逊于人类" 提升到 "大致持平"，预计年内将达到 "严格优于人类" 的水平。

在实验优化场景中，Claude Mythos Preview 在代码性能优化任务中实现了 52 倍的加速，而熟练人类研究人员需要 4-8 小时才能达到 4 倍。这种数量级的效率差异意味着，在目标明确的实验执行环节，AI 已具备超人类能力。

多层安全防护体系

面对递归自我改进带来的失控风险，Anthropic 构建了一套分层的安全架构。最底层是 Constitutional AI，通过预设的原则集合指导模型行为，使模型能够自我批判和修正输出，减少对人工标注的依赖。

中间层是 Responsible Scaling Policies，根据模型能力动态调整安全防护措施。当模型展现出新的能力边界时，相应的安全护栏会同步升级。这种 "能力 - 安全" 联动机制试图在模型能力跃迁时保持控制。

顶层是人类监督机制。尽管 AI 在执行层面的能力快速提升，但 Anthropic 强调 "方向设定"（direction-setting）仍是人类的核心职责。这包括选择研究问题、判断结果可信度、识别死胡同。在 2026 年 3 月的一项内部调查中，130 名研究人员估计使用 Mythos Preview 后产出提升了约 4 倍，但人类在 "大局观" 和 "跳出当前任务框架思考" 方面仍保持比较优势。

对齐风险的工程应对

递归自我改进的最大风险在于对齐问题的潜在加剧。如果模型能够自主设计其后继者，当前模型中存在的轻微不对齐可能在迭代过程中被放大，直至人类失去控制。

Anthropic 提出的应对策略包括可验证的暂停机制。与核军控不同，AI 训练运行的隐蔽性使得验证更加困难 —— 训练所需的计算资源可以隐藏，且输入数据具有通用性。Anthropic 正在研究如何构建全球协调系统，使前沿实验室能够在可验证的条件下同步暂停开发，为安全研究争取时间。

另一个关键指标是研究品味（research taste）—— 选择值得解决的问题、识别有前景的方向、判断何时放弃无效路径的能力。目前 Claude 在这类判断任务上的表现从 2025 年 11 月的 51% 提升到 2026 年 4 月的 64%，虽然仍有差距，但趋势表明这可能只是另一个 AI 暂时落后、随后快速追赶的能力维度。

实践启示与可落地清单

对于正在构建 AI 辅助开发流程的团队，Anthropic 的实践提供了以下可操作的参考：

代码生成与审查流程

建立代码归属追踪机制，区分人类编写与 AI 生成代码
部署自动化审查工具作为第一道防线
设定质量基准：当 AI 代码质量达到人类水平时，将人类角色从 "编写" 转为 "审查"
监控审查瓶颈：当审查成为产出限制因素时，考虑引入 AI 辅助审查

实验自动化策略

从目标明确的优化任务开始（如性能调优），逐步扩展到开放式研究
建立清晰的评估标准（scoring rubric），使 AI 能够自主判断实验成败
保留人类在问题选择和方向设定环节的决策权

安全防护措施

实施分层安全架构：原则层（Constitutional AI）、策略层（Responsible Scaling）、监督层（人类审查）
建立红队测试机制，定期评估模型在边界情况下的行为
制定能力阈值触发机制：当模型展现出新能力时，自动升级安全护栏

风险监控指标

跟踪 AI 在开放式任务中的成功率变化
监控 AI 提出的实验方向与人类判断的一致性比例
建立不对齐事件的追踪和归因机制

递归自我改进的实现路径可能比预期更短 ——Anthropic 联合创始人 Jack Clark 估计 2028 年前实现 RSI 的概率为 60%。但无论时间线如何，当前的技术演进已经要求开发团队重新思考人机协作的边界、安全架构的设计原则，以及如何在加速的能力提升中保持可控性。这不仅是技术挑战，更是组织能力和治理框架的工程化问题。

资料来源

Anthropic Institute: "When AI builds itself" (2026)
Anthropic Constitutional AI 技术文档

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。