当大语言模型输出一个答案时,其内部经历了怎样的计算过程?这个长期困扰可解释性研究领域的问题,如今有了新的解答方向。Anthropic 在最新研究中提出了归因图谱(Attribution Graphs)方法,能够在单个前向传播中追踪模型内部特征之间的因果影响链,为理解 Claude 3.5 Haiku 的内部推理机制提供了前所未有的窗口。
从特征到因果链路:核心方法论
传统的行为解释方法(如注意力可视化或特征归因)仅能展示输入与输出之间的关联,而无法揭示模型内部中间步骤的计算图谱。归因图谱的核心思路是:首先通过稀疏自编码器将模型的 MLP 层替换为可解释的特征,然后基于这些特征构建因果影响图,最后通过图剪枝提取关键的推理路径。
具体实现上,研究团队训练了一个跨层转码器(Cross-Layer Transcoder,CLT),该架构在所有层中总计包含 3000 万个特征。这些特征通过特征可视化进行人工标注 —— 观察特征在哪些文本上下文中最强烈地激活,从而推断其语义含义。例如,一个在 “capital”(首都)相关语境中激活的特征被标记为 “capital 概念” 特征,而另一个在多种语言中激活的特征则被标记为 “多语言抽象特征”。
构建归因图的核心是计算特征之间的因果影响力。研究团队使用目标加权预期残差归因(TWERA)权重来估计全局特征交互,并在此基础上针对特定提示构建局部归因图。图中节点代表特征,边代表因果影响,边的权重表示影响的强度。为了使图谱可读,研究团队进行了两步简化:首先将相关特征手动分组为 “超节点”(Supernode),然后对图进行剪枝,移除对输出贡献较小的节点和边。
多步推理的内部机制追踪
归因图谱最引人注目的应用场景之一是追踪模型的多步推理能力。以经典的地名推理问题 “Fact: the capital of the state containing Dallas is” 为例,模型正确输出 “Austin”。通过归因图分析,研究团队发现了两个并行的推理路径:一是从 "Dallas" 特征到 "Texas" 特征再到 "Austin" 特征的两跳路径,二是从 "Dallas" 直接到 "Austin” 的快捷路径。这表明模型同时使用了显式推理和记忆捷径,而非单一的推理模式。
更关键的是,研究团队通过干预实验验证了这一发现。当抑制 "Texas" 特征时,输出从 "Austin" 变为其他州首府;而当将 "Texas" 特征替换为 "California" 特征时,模型输出从 "Austin" 变为 "Sacramento"。这一替换实验直接证明了中间表征(Texas)对最终输出的因果驱动作用。
类似的方法也被应用于分析诗歌创作中的规划行为。研究团队发现,Claude 3.5 Haiku 在写诗前会在换行符位置预先激活候选韵脚词汇的特征。例如在写第二行前,模型已经在换行符上激活了 "rabbit" 和 "habit" 等韵脚候选词的特征,这些特征随后影响中间词汇的选择,使整行自然地以目标词汇收尾。通过抑制 "rabbit" 特征并激活 "green" 特征,模型能够将结尾从 "rabbit" 改为 "green",证明了规划特征对输出内容的因果控制。
注意力机制的补充分析
归因图谱方法也有其局限性。研究团队坦承,当前方法并未直接解释注意力模式的计算方式,这在某些场景下构成了分析盲区。例如在多语言任务中,一个关键的交互(反义词到对应词)似乎通过注意力头的 QK 电路实现,而这种方式在当前的特征图中不可见。
为弥补这一不足,研究团队将归因图分析与注意力模式分析相结合。在法语反义词任务中,研究团队发现语言检测特征在早期层激活,反义词特征在中间层激活,而最终输出特征在后期层激活。注意力头负责在不同位置之间传递信息,但特征层面的因果图仍能揭示计算的整体结构。研究团队还观察到,模型在不同语言间共享语言无关的抽象特征,这些特征在中间层最为突出,而输入输出层则更多呈现语言特定性。
干预实验与验证框架
归因图谱的有效性最终需要通过干预实验来验证。研究团队采用 “约束修补”(Constrained Patching)技术:在指定层将特征激活钳制为扰动值,从而阻断扰动在该层之前的间接效应。这一设计确保了干预效果在指定层之前与归因图预测完全一致,而干预之后的层可能因图谱未捕获的机制而出现偏差。
在有害请求拒绝分析中,研究团队识别出三个关键特征群:混合化学品的危险特征、有害请求特征和拒绝特征。通过抑制有害请求特征,模型从拒绝转为顺从;通过抑制默认拒绝特征,模型转向提供安全警告而非直接拒绝。这些实验表明,归因图不仅能描述已知机制,还能发现潜在的干预点。
值得注意的是,研究团队发现约四分之一的提示能产生令人满意的归因图洞察。这一成功率受多种因素影响:推理无法简化为单一关键令牌的提示、长提示、需多步内部推理的复杂任务,以及模型未在训练分布内学习的非常规实体,都会降低方法的有效性。
归因图谱方法代表了可解释性研究从 “观察行为” 向 “揭示机制” 的范式转变。虽然当前方法仍有显著局限,但它已经揭示了 Claude 内部令人惊讶的复杂推理结构 —— 包括前瞻性规划、目标回溯推理、元认知回路,以及跨语言的抽象表示。这些发现为未来的 AI 安全审计和模型改进提供了新的工具集。
资料来源:本文核心方法论与案例分析基于 Anthropic 研究团队论文《On the Biology of a Large Language Model》及配套方法论文,部分实现细节参考 MarkTechPost 的技术报道。
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。