LLM 拒绝行为由单方向介导：打开语言模型安全机制的黑箱

当我们向大型语言模型发送一个有害请求时，模型会拒绝回答。这看似简单的行为背后，隐藏着怎样的内部计算机制？2024 年以来， механизм interpretability 研究领域的一系列实证研究揭示了一个令人惊讶的发现：语言模型的拒绝行为竟然是由单个潜伏方向（一维子空间）介导的。这一发现不仅颠覆了我们对模型安全机制复杂性的预期，更为理解语言模型的内部运作提供了全新的科学视角。

从黑箱到白盒：拒绝机制的实证发现

长期以来，业界普遍认为语言模型对有害指令的拒绝是一个复杂的多因素过程，涉及模型对指令内容的理解、对安全准则的遵循以及对输出风险的评估。这种直觉上的复杂性使得研究者们倾向于从工程化干预的角度寻找解决方案 —— 通过提示工程、对齐训练或外部过滤器来控制模型的拒绝行为。然而，神经网络的可解释性研究采用了另一种策略：直接观察模型内部 activation space 中究竟发生了什么。

来自 NeurIPS 2024 的一项研究采用了 activation patching（激活修补）技术，系统性地探测模型在处理有害与无害指令时的激活差异。研究者的核心假设是：如果拒绝行为由多个独立机制共同决定，那么干预单一方向只会产生微弱影响；反之，如果存在一个主导性的「拒绝方向」，那么精确操控这个方向应该能够显著改变模型的输出行为。实验结果支持了后者：在多个开源模型家族（包括从约 18 亿到 720 亿参数的不同规模）中，研究者定位到了一个一维的潜伏方向，这个方向上的激活值与模型的拒绝倾向高度相关。

具体而言，当研究者沿着这个特定方向对模型的激活进行正向干预时，即使是对完全无害的指令，模型也会开始表现出拒绝行为 —— 说出「很抱歉，我无法帮助」之类的话。相反，如果沿着该方向进行负向干预（抵消其激活），模型原本会拒绝的有害请求竟然得到了顺从回答。这种双向可控性是单方向中介假说的强有力证据：既然一个方向就足以在两个方向上产生预期效果，说明这个一维子空间确实承载了拒绝行为的因果效力。

机制层面的分离：有害性感知与拒绝决策

单方向中介的发现已经足够令人兴奋，但研究者并未止步于此。一个更为根本的问题浮现出来：这个被发现的「拒绝方向」究竟编码了什么？是模型对指令有害性的判断，还是某种独立的拒绝倾向？理解这两者的区别具有重要的科学和安全意义。

后续研究通过精心设计的对照实验回答了这一问题。研究者使用两套独立的探测头（probe）分别对「有害性」和「拒绝」进行检测，发现两者在模型的 latent space 中确实编码为两个独立的方向。更精确地说，模型内部存在一个专门编码「该指令是否有害」的有害性方向（harmfulness direction），以及另一个专门编码「是否应该拒绝」的拒绝方向（refusal direction）。这两个方向在空间中几乎是正交的，意味着它们捕获的是不同维度的信息。

这一分离具有深远的意义。它表明模型内部存在一条清晰的信息处理流水线：首先，模型的内部表征对输入指令的有害程度进行评估（有害性方向上的激活反映这一判断）；然后，基于有害性判断，模型决定是否拒绝（拒绝方向被激活）。两者虽然最终都表现为模型的拒绝输出，但内在机制完全不同。

安全启示：更稳健的内在防护

从科学发现到实际应用，这项研究带来了重要的安全启示。传统上，我们依赖模型输出的拒绝行为来判断其是否安全 —— 如果模型拒绝回答，说明它识别出了有害内容。然而，研究表明，模型的拒绝行为实际上比其内在的有害性判断更脆弱。一些绕过安全机制的攻击（如特定的 jailbreak 手段）并非真正改变了模型对有害内容的判断，而仅仅是抑制了拒绝方向的激活。这意味着模型依然「知道」某些内容是有害的，只是未能触发拒绝。

更有说服力的证据来自对抗性微调实验。研究人员对模型进行微调，使其对原本会拒绝的有害指令产生顺从行为。令他们惊讶的是，这种微调几乎没有影响模型内在的有害性表示 —— 有害性方向上的激活模式与微调前几乎一致。换句话说，模型被「说服」输出有害内容，但其内部对有害内容的判断从未改变。这相当于一个人被强迫说出违心的话，但其内心的是非观念完好无损。

基于这一发现，研究者提出了「潜在防护」（Latent Guard）的概念：不再依赖模型的输出拒绝行为作为安全信号，而是直接监测模型内部的有害性表示。由于有害性编码比拒绝决策更加稳健（对微调和对抗攻击更具抵抗力），这种内在防护机制能够提供更可靠的安全保障。实验结果表明，基于有害性表示的防护器在多种 jailbreak 攻击下的表现与专门微调的安全防护模型 Llama Guard 3 8B 相当甚至更优。

科学意义与开放问题

从科学方法论的角度看，这项研究展示了一条不同于主流工程路线的 AI 安全研究路径。工程化方法试图通过外部干预（如 RLHF、安全微调）来塑造模型行为，但往往面临「道高一尺，魔高一丈」的困境 —— 新的攻击手段总能不断突破防护。相比之下，理解模型内部的运作机制虽然更为基础，却可能带来更为持久的解决方案。当我们知道拒绝行为由哪个具体方向介导、有害性判断如何独立编码，我们就有可能在更深的层面设计防护措施。

当然，单方向中介的发现并不意味着模型的安全机制已经完全被解开。研究者承认，这个简洁的图景可能无法捕获所有边缘情况 —— 例如，系统提示的微妙变化、特定领域的专业知识、或者某些架构特有的行为模式都可能引入额外复杂性。此外，这项发现的可迁移性也值得进一步探索：不同训练数据、不同模型架构、甚至同一模型的不同微调版本是否都共享同样的拒绝方向，仍然是 open question。

从更宏观的视角看，单方向中介的发现呼应了可解释性研究中的一个普遍主题：复杂的宏观行为往往可以追溯到相对简洁的内部表征。语言模型能够生成连贯的文章、进行逻辑推理、执行代码 —— 这些令人惊叹的能力背后，是无数参数的复杂交互；但在某些特定任务上，我们确实能够定位到具有明确语义含义的单个方向。这种「维度层面的语义涌现」现象，不仅有助于构建更安全的 AI 系统，也为我们理解智能本身提供了新的线索。

资料来源：本文核心发现基于 NeurIPS 2024 论文 "Refusal in Language Models Is Mediated by a Single Direction"（OpenReview ID: zLkpt30ngy）以及后续研究 "LLMs Encode Harmfulness and Refusal Separately"。

ai-systems