Hotdry.
ai-systems

Anthropic 放弃旗舰安全承诺:AI 行业自律机制的转折点

深度剖析 Anthropic 放弃 RSP 核心承诺背后的商业与安全考量,以及对 AI 行业自律机制与未来监管走向的影响。

2026 年 2 月,一则来自《时代周刊》的独家报道震动了整个 AI 安全社区:Anthropic 这家以 “安全优先” 著称的公司,已于近期悄然放弃了其最具标志性的安全承诺 ——2023 版《负责任扩展政策》(Responsible Scaling Policy,简称 RSP)中的核心条款。这一决定不仅标志着 AI 行业自律机制的深刻变化,也为其余 AI 实验室和全球监管机构敲响了警钟。

从 “硬约束” 到 “弹性评估”:被放弃的承诺究竟是什么

理解这一事件的关键在于弄清 Anthropic 究竟放弃了什么。2023 年发布的 RSP 曾被视为 AI 行业自律的标杆,其中最具约束力的条款明确规定:Anthropic 承诺 不会训练下一代更强模型,除非能事先证明安全措施足够。这相当于一种 “宁可停更,也要安全” 的强约束 —— 只要安全评估无法通过,公司就自愿绑住自己的手脚,停止模型训练和发布。

然而,2026 年的新版 RSP 完全重写了这一逻辑。原先清晰明了的 “过线即停” 二元阈值机制被彻底移除,取而代之的是一套更为灵活的连续评估框架。公司不再承诺 “一旦安全不达标就彻底停训”,而是改为在特定条件下 “考虑延缓”(delay)开发节奏,同时承担更高透明度的风险披露义务。

Anthropic 管理层给出的解释耐人寻味:在一个竞争对手持续冲刺的市场环境中,单方面踩刹车非但不一定让世界更安全,反而可能让防护更弱的一方率先掌握最强系统。这种逻辑本质上承认了 “囚徒困境” 的存在 —— 当所有玩家都在加速时,率先减速的那个人反而可能成为输家。

行业自律机制的深层裂痕

这一决定的冲击波远超一家公司的政策调整。自 AI 安全研究社区形成以来,“企业自律” 始终是防范前沿模型风险的主流叙事之一。Anthropic 正是这一叙事的核心建构者 —— 它多次公开强调自己比竞争对手更克制、更重视安全,并将 RSP 作为区别于其他实验室的标志性承诺。

当这个最坚定的自律旗手选择松绑,业内观察者的担忧迅速蔓延。专注于高风险 AI 评估的非营利组织 METR 的政策负责人在审阅新版 RSP 草案后直言:这种调整 可以理解,但对世界能否管住 AI 风险是一个悲观信号。他的核心担忧在于,从清晰的 “能不能过线” 转向模糊的连续评估,本质上消解了那个 “停下来的一瞬间”。没有了明确的暂停阈值,风险累积将成为一个渐进且难以察觉的过程 —— 用他原话来说,这像是 “温水煮青蛙”。

更深层的矛盾在于安全评估手段与模型能力进展之间的速度差。Anthropic 之所以选择放弃硬约束,并非因为安全不再重要,而是因为它已经切身感受到:在当前的技术演进速度下,事先验证安全措施充足性的门槛正变得越来越高。与其被一个可能永远达不到的承诺束缚,不如转向更务实的信息披露和风险对冲策略。

外部压力:军事订单与人才流失的叠加效应

如果仅有市场竞争逻辑,这一决定的冲击力或许还不至于如此之大。2026 年初,Anthropic 同时面临多重外部压力的夹击。美国国防部长皮特・赫格塞思(Pete Hegseth)直接向公司发出最后通牒:要么解除模型中限制军事用途(包括自主武器和国内监控等场景)的安全防护,要么失去政府合同。尽管 Anthropic 截至目前仍拒绝让步,但这一威胁暴露了商业利益与安全原则之间的深刻裂痕。

与此同时,公司内部也出现了人事震荡。安全防护研究负责人米林卡・夏尔马(Mrinank Sharma)在辞职公开信中警告 “世界正处于多重危机叠加的危险门槛”,其离职被业界解读为对 AI 安全路线的又一次示警。这些因素叠加在一起,为 Anthropic 重新审视其安全承诺提供了充足的外部理由 —— 尽管公司官方从未将这些因素与 RSP 修改直接挂钩。

监管走向:从自律到他律的临界点

Anthropic 的政策后退可能成为 AI 监管从 “自愿承诺” 走向 “强制立法” 的催化剂。长期以来,主要 AI 实验室普遍倾向于通过自愿承诺来规避硬性监管,理由是自我约束比政府干预更灵活、更能适应技术快速迭代的特性。但当自律的标杆企业都无法维持其承诺的约束力时,“自愿框架” 的公信力便不可避免地受到侵蚀。

值得注意的是,全球监管格局正在加速分化。G7 广岛进程国际行为准则、AI 首尔峰会的前沿 AI 安全承诺、以及美国政府针对图像性虐待等议题的自愿承诺 —— 这些多边框架仍在推进,但它们的约束力始终取决于企业的配合程度。Anthropic 的案例表明,在缺乏强制执行机制的前提下,自愿承诺的生命周期可能相当有限。

一种可能的走向是:各国监管机构将加速立法进程,将 RSP 类承诺中的核心要素(如安全评估阈值、模型发布前的风险测试)写入法律。另一种可能是行业内部形成新的制衡机制 —— 例如引入第三方审计或建立类似国际原子能机构的 AI 安全监督机构。无论哪种路径,Anthropic 的这次 “退让” 都标志着一个关键转折点:AI 安全的未来或许不能再单纯依赖企业的道德自觉,而需要更坚硬的制度性保障。

结语

Anthropic 放弃旗舰安全承诺,既是商业现实下的无奈选择,也是 AI 行业自律机制脆弱性的缩影。它提醒我们,在能力竞赛的压力下,任何缺乏制度约束的承诺都可能随时松动。对于整个 AI 社区而言,这一事件的启示或许是:安全不能仅靠一家公司的自觉,而需要整个行业乃至全球治理体系的共同托底。当自律的灯塔开始熄灭监管的黎明或许才真正值得期待。

资料来源:TIME 独家报道《Exclusive: Anthropic Drops Flagship Safety Pledge》、Anthropic 官方透明度页面、METR 政策分析、Hacker News 社区讨论。

查看归档