Anthropic 放弃旗舰安全承诺：AI 行业自律机制的转折点

2026 年 2 月，一则来自《时代周刊》的独家报道震动了整个 AI 安全社区：Anthropic 这家以 “安全优先” 著称的公司，已于近期悄然放弃了其最具标志性的安全承诺 ——2023 版《负责任扩展政策》（Responsible Scaling Policy，简称 RSP）中的核心条款。这一决定不仅标志着 AI 行业自律机制的深刻变化，也为其余 AI 实验室和全球监管机构敲响了警钟。

从 “硬约束” 到 “弹性评估”：被放弃的承诺究竟是什么

理解这一事件的关键在于弄清 Anthropic 究竟放弃了什么。2023 年发布的 RSP 曾被视为 AI 行业自律的标杆，其中最具约束力的条款明确规定：Anthropic 承诺 不会训练下一代更强模型，除非能事先证明安全措施足够。这相当于一种 “宁可停更，也要安全” 的强约束 —— 只要安全评估无法通过，公司就自愿绑住自己的手脚，停止模型训练和发布。

然而，2026 年的新版 RSP 完全重写了这一逻辑。原先清晰明了的 “过线即停” 二元阈值机制被彻底移除，取而代之的是一套更为灵活的连续评估框架。公司不再承诺 “一旦安全不达标就彻底停训”，而是改为在特定条件下 “考虑延缓”（delay）开发节奏，同时承担更高透明度的风险披露义务。

Anthropic 管理层给出的解释耐人寻味：在一个竞争对手持续冲刺的市场环境中，单方面踩刹车非但不一定让世界更安全，反而可能让防护更弱的一方率先掌握最强系统。这种逻辑本质上承认了 “囚徒困境” 的存在 —— 当所有玩家都在加速时，率先减速的那个人反而可能成为输家。

行业自律机制的深层裂痕

这一决定的冲击波远超一家公司的政策调整。自 AI 安全研究社区形成以来，“企业自律” 始终是防范前沿模型风险的主流叙事之一。Anthropic 正是这一叙事的核心建构者 —— 它多次公开强调自己比竞争对手更克制、更重视安全，并将 RSP 作为区别于其他实验室的标志性承诺。

当这个最坚定的自律旗手选择松绑，业内观察者的担忧迅速蔓延。专注于高风险 AI 评估的非营利组织 METR 的政策负责人在审阅新版 RSP 草案后直言：这种调整 可以理解，但对世界能否管住 AI 风险是一个悲观信号。他的核心担忧在于，从清晰的 “能不能过线” 转向模糊的连续评估，本质上消解了那个 “停下来的一瞬间”。没有了明确的暂停阈值，风险累积将成为一个渐进且难以察觉的过程 —— 用他原话来说，这像是 “温水煮青蛙”。

更深层的矛盾在于安全评估手段与模型能力进展之间的速度差。Anthropic 之所以选择放弃硬约束，并非因为安全不再重要，而是因为它已经切身感受到：在当前的技术演进速度下，事先验证安全措施充足性的门槛正变得越来越高。与其被一个可能永远达不到的承诺束缚，不如转向更务实的信息披露和风险对冲策略。

外部压力：军事订单与人才流失的叠加效应

如果仅有市场竞争逻辑，这一决定的冲击力或许还不至于如此之大。2026 年初，Anthropic 同时面临多重外部压力的夹击。美国国防部长皮特・赫格塞思（Pete Hegseth）直接向公司发出最后通牒：要么解除模型中限制军事用途（包括自主武器和国内监控等场景）的安全防护，要么失去政府合同。尽管 Anthropic 截至目前仍拒绝让步，但这一威胁暴露了商业利益与安全原则之间的深刻裂痕。

与此同时，公司内部也出现了人事震荡。安全防护研究负责人米林卡・夏尔马（Mrinank Sharma）在辞职公开信中警告 “世界正处于多重危机叠加的危险门槛”，其离职被业界解读为对 AI 安全路线的又一次示警。这些因素叠加在一起，为 Anthropic 重新审视其安全承诺提供了充足的外部理由 —— 尽管公司官方从未将这些因素与 RSP 修改直接挂钩。

监管走向：从自律到他律的临界点

Anthropic 的政策后退可能成为 AI 监管从 “自愿承诺” 走向 “强制立法” 的催化剂。长期以来，主要 AI 实验室普遍倾向于通过自愿承诺来规避硬性监管，理由是自我约束比政府干预更灵活、更能适应技术快速迭代的特性。但当自律的标杆企业都无法维持其承诺的约束力时，“自愿框架” 的公信力便不可避免地受到侵蚀。

值得注意的是，全球监管格局正在加速分化。G7 广岛进程国际行为准则、AI 首尔峰会的前沿 AI 安全承诺、以及美国政府针对图像性虐待等议题的自愿承诺 —— 这些多边框架仍在推进，但它们的约束力始终取决于企业的配合程度。Anthropic 的案例表明，在缺乏强制执行机制的前提下，自愿承诺的生命周期可能相当有限。

一种可能的走向是：各国监管机构将加速立法进程，将 RSP 类承诺中的核心要素（如安全评估阈值、模型发布前的风险测试）写入法律。另一种可能是行业内部形成新的制衡机制 —— 例如引入第三方审计或建立类似国际原子能机构的 AI 安全监督机构。无论哪种路径，Anthropic 的这次 “退让” 都标志着一个关键转折点：AI 安全的未来或许不能再单纯依赖企业的道德自觉，而需要更坚硬的制度性保障。

结语

Anthropic 放弃旗舰安全承诺，既是商业现实下的无奈选择，也是 AI 行业自律机制脆弱性的缩影。它提醒我们，在能力竞赛的压力下，任何缺乏制度约束的承诺都可能随时松动。对于整个 AI 社区而言，这一事件的启示或许是：安全不能仅靠一家公司的自觉，而需要整个行业乃至全球治理体系的共同托底。当自律的灯塔开始熄灭监管的黎明或许才真正值得期待。

资料来源：TIME 独家报道《Exclusive: Anthropic Drops Flagship Safety Pledge》、Anthropic 官方透明度页面、METR 政策分析、Hacker News 社区讨论。