递归自我改进(Recursive Self-Improvement, RSI)正从科幻概念走向工程现实。Anthropic 近期发布的内部数据显示,截至 2026 年 5 月,超过 80% 的合并代码由 Claude 编写,工程师人均代码产出量达到 2024 年的 8 倍。这些数字背后,是一条清晰的从 "人类主导" 到 "AI 辅助" 再到 "自主代理" 的技术演进路径,以及一套正在成型的安全保障体系。
技术演进的四个阶段
Anthropic 将 AI 在软件开发中的角色演进划分为四个阶段。第一阶段(2021-2023)完全依赖人工编写代码;第二阶段(2023-2025)引入聊天机器人辅助生成代码片段,工程师需要手动复制粘贴;第三阶段(2025-2026)编码代理能够独立编写和编辑完整文件;第四阶段(今天)自主代理不仅可以运行代码,还能将数小时的工作委托给其他代理。
这种演进在能力指标上得到了验证。METR 的评估显示,AI 系统可靠完成的任务的时长跨度正在以每 4 个月翻一番的速度增长 —— 从 2024 年 3 月的 4 分钟,到 2025 年的 1.5 小时,再到 2026 年的 12 小时。如果这一趋势持续,AI 今年内可能具备完成需要人类数日才能完成的任务的能力。
更关键的是研究能力的突破。在 2026 年 4 月的一项实验中,Claude 代理被赋予一个开放式 AI 安全问题 —— 弱模型能否可靠监督强模型。代理自主提出假设、设计实验、与并行代理共享发现并迭代优化,最终在 800 个累计计算小时内弥合了 97% 的性能差距,而两名人类研究人员在一周内仅弥合了 23%。尽管人类仍负责选择问题和制定评分标准,但实验设计的核心环节已实现高度自动化。
工程实践中的关键转折
代码生成能力的质变带来了工程实践的结构性转变。在 Anthropic 内部,代码审查已成为新的瓶颈 —— 这正是 Amdahl 定律在 AI 开发中的体现:当代码生成速度远超人类审查速度时,审查环节成为限制整体产出的约束条件。
为应对这一挑战,Anthropic 部署了自动化 Claude 审查器,在代码合并前检查缺陷、安全漏洞和其他问题。回顾性分析显示,这一工具本可以在过去捕获约三分之一的生产事故。从 2025 年末到 2026 年,Claude 编写代码的质量从 "略逊于人类" 提升到 "大致持平",预计年内将达到 "严格优于人类" 的水平。
在实验优化场景中,Claude Mythos Preview 在代码性能优化任务中实现了 52 倍的加速,而熟练人类研究人员需要 4-8 小时才能达到 4 倍。这种数量级的效率差异意味着,在目标明确的实验执行环节,AI 已具备超人类能力。
多层安全防护体系
面对递归自我改进带来的失控风险,Anthropic 构建了一套分层的安全架构。最底层是 Constitutional AI,通过预设的原则集合指导模型行为,使模型能够自我批判和修正输出,减少对人工标注的依赖。
中间层是 Responsible Scaling Policies,根据模型能力动态调整安全防护措施。当模型展现出新的能力边界时,相应的安全护栏会同步升级。这种 "能力 - 安全" 联动机制试图在模型能力跃迁时保持控制。
顶层是人类监督机制。尽管 AI 在执行层面的能力快速提升,但 Anthropic 强调 "方向设定"(direction-setting)仍是人类的核心职责。这包括选择研究问题、判断结果可信度、识别死胡同。在 2026 年 3 月的一项内部调查中,130 名研究人员估计使用 Mythos Preview 后产出提升了约 4 倍,但人类在 "大局观" 和 "跳出当前任务框架思考" 方面仍保持比较优势。
对齐风险的工程应对
递归自我改进的最大风险在于对齐问题的潜在加剧。如果模型能够自主设计其后继者,当前模型中存在的轻微不对齐可能在迭代过程中被放大,直至人类失去控制。
Anthropic 提出的应对策略包括可验证的暂停机制。与核军控不同,AI 训练运行的隐蔽性使得验证更加困难 —— 训练所需的计算资源可以隐藏,且输入数据具有通用性。Anthropic 正在研究如何构建全球协调系统,使前沿实验室能够在可验证的条件下同步暂停开发,为安全研究争取时间。
另一个关键指标是研究品味(research taste)—— 选择值得解决的问题、识别有前景的方向、判断何时放弃无效路径的能力。目前 Claude 在这类判断任务上的表现从 2025 年 11 月的 51% 提升到 2026 年 4 月的 64%,虽然仍有差距,但趋势表明这可能只是另一个 AI 暂时落后、随后快速追赶的能力维度。
实践启示与可落地清单
对于正在构建 AI 辅助开发流程的团队,Anthropic 的实践提供了以下可操作的参考:
代码生成与审查流程
- 建立代码归属追踪机制,区分人类编写与 AI 生成代码
- 部署自动化审查工具作为第一道防线
- 设定质量基准:当 AI 代码质量达到人类水平时,将人类角色从 "编写" 转为 "审查"
- 监控审查瓶颈:当审查成为产出限制因素时,考虑引入 AI 辅助审查
实验自动化策略
- 从目标明确的优化任务开始(如性能调优),逐步扩展到开放式研究
- 建立清晰的评估标准(scoring rubric),使 AI 能够自主判断实验成败
- 保留人类在问题选择和方向设定环节的决策权
安全防护措施
- 实施分层安全架构:原则层(Constitutional AI)、策略层(Responsible Scaling)、监督层(人类审查)
- 建立红队测试机制,定期评估模型在边界情况下的行为
- 制定能力阈值触发机制:当模型展现出新能力时,自动升级安全护栏
风险监控指标
- 跟踪 AI 在开放式任务中的成功率变化
- 监控 AI 提出的实验方向与人类判断的一致性比例
- 建立不对齐事件的追踪和归因机制
递归自我改进的实现路径可能比预期更短 ——Anthropic 联合创始人 Jack Clark 估计 2028 年前实现 RSI 的概率为 60%。但无论时间线如何,当前的技术演进已经要求开发团队重新思考人机协作的边界、安全架构的设计原则,以及如何在加速的能力提升中保持可控性。这不仅是技术挑战,更是组织能力和治理框架的工程化问题。
资料来源
- Anthropic Institute: "When AI builds itself" (2026)
- Anthropic Constitutional AI 技术文档
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。