当我们谈论 LLM 安全对齐时,默认的假设是相同的安全策略在不同语言下应产生一致的行为。然而现实远比这种假设复杂得多。Mozilla 多语言 AI 安全评估实验室的研究人员罗亚・帕克扎德在「Don't Trust the Salt」一文中揭示了一个令人不安的事实:LLM 的安全护栏(guardrails)并非如我们预期般可靠,尤其是在非英语语言环境中,它们可能产生显著的行为偏差,甚至被隐式绕过。
Guardrails 失效的核心机制:双语隐式推理
传统观点认为,LLM 的安全策略通过系统提示词(system prompt)或外部审核层实现,这些策略应当独立于输出语言发挥作用。然而研究表明,当安全策略以特定语言编写但要求模型以另一种语言输出时,会产生一种被称作「双语隐式推理」(Bilingual Shadow Reasoning)的现象。
具体而言,研究人员使用同一份联合国人权报告作为输入,仅改变隐藏策略层的语言(英语或波斯语)和框架设置,就得到了截然不同的摘要版本。当策略层聚焦于执行和虐待时,摘要强调暴力和侵权内容;而切换到另一策略框架时,摘要悄然转变为突出政府对话和改善努力。这种操作在表面输出上看不出任何明显的宣传痕迹,却实质性地改变了信息的呈现角度。
这一现象的技术根因在于:模型的内部推理过程受到策略语言的隐性影响,而这种影响并未被外部安全层捕捉。模型在生成英语输出时,其隐式推理链可能已被非英语策略所塑造,导致最终输出虽然通过安全检查,但信息立场已发生偏移。
安全策略跨语言的一致性危机
研究团队在 Mozilla.ai 的多语言上下文感知 guardrails 评估框架上进行了系统性测试,使用英语和波斯语策略处理 60 个与难民庇护相关的场景。测试结果揭示了令人警惕的差异:同一安全策略在英语和波斯语版本之间产生了高达 36% 至 53% 的评分差异。
这种差异并非偶然。研究指出,当安全策略被机械翻译为另一种语言时,翻译过程中的语义衰减会导致策略意图的微妙改变。更严重的是,guardrails 在非英语推理中更容易产生虚构术语(hallucination),并对庇护申请者的国籍和处境做出带有偏见的假设。
值得注意的是,这些安全层表现出极高的自信,却没有任何外部验证机制。它们依赖静态模式匹配或纯 LLM 判断来做出安全决策,缺少搜索、检索或事实核查等「智能体」能力。这种盲目自信在实际应用中是极其危险的,尤其是在人道主义援助、法律咨询等高风险场景中。
对抗性测试方法与可落地参数
针对上述问题,文章提出了一系列可操作的对抗性测试方法与设计参数。首先是语言一致性压力测试:将同一安全策略翻译成目标语言后,针对相同输入场景进行对比测试,记录评分偏差。若偏差超过预设阈值(建议阈值为 15%),则需要重新设计策略的语言无关性。
其次是多框架隐式推理检测:在系统提示词中注入多个相互冲突的策略框架,观察输出是否存在框架依赖性偏移。测试用例应覆盖政治敏感、人权相关、暴力内容等高风险类别。
第三是跨语言事实性审计:要求 guardrails 在做出安全判断时提供外部引用或检索证据,而非仅依赖模型内部知识。对于涉及生命安全或法律权利的场景,这一要求应当设为强制。
第四是偏见假设扫描:使用包含特定身份标识的测试输入,检测 guardrails 是否对特定群体产生系统性的假设偏差。在庇护场景中,应特别关注国籍、种族、宗教等受保护属性的偏见。
工程实践中的监控要点
将上述测试方法集成到开发流程中,需要建立持续的监控体系。每个版本发布前应执行语言一致性回归测试,记录不同语言版本的安全评分分布。生产环境中应部署跨语言 A/B 测试,对比同一输入在不同语言下的安全响应差异。
对于使用 LLM 作为安全判断者的场景,应当引入外部验证层。理想情况下,guardrails 应具备访问搜索 API 或知识库的能力,能够在做出高风险判断前进行交叉验证。同时,应当记录所有安全判断的置信度分布,对置信度异常高但缺乏验证的案例进行标记和审查。
综合来看,多语言环境下 LLM guardrails 的失效并非简单的技术缺陷,而是反映了当前 AI 安全对齐范式的深层局限。 Salt 一文的核心启示在于:我们不能将安全护栏视为理所当然的「盐」,而应持续检验其本身是否已被污染。
资料来源:Mozilla.ai Blog, Roya Pakzad