归因图谱深度解析：Anthropic 如何追踪 Claude 内部推理链

当大语言模型输出一个答案时，其内部经历了怎样的计算过程？这个长期困扰可解释性研究领域的问题，如今有了新的解答方向。Anthropic 在最新研究中提出了归因图谱（Attribution Graphs）方法，能够在单个前向传播中追踪模型内部特征之间的因果影响链，为理解 Claude 3.5 Haiku 的内部推理机制提供了前所未有的窗口。

从特征到因果链路：核心方法论

传统的行为解释方法（如注意力可视化或特征归因）仅能展示输入与输出之间的关联，而无法揭示模型内部中间步骤的计算图谱。归因图谱的核心思路是：首先通过稀疏自编码器将模型的 MLP 层替换为可解释的特征，然后基于这些特征构建因果影响图，最后通过图剪枝提取关键的推理路径。

具体实现上，研究团队训练了一个跨层转码器（Cross-Layer Transcoder，CLT），该架构在所有层中总计包含 3000 万个特征。这些特征通过特征可视化进行人工标注 —— 观察特征在哪些文本上下文中最强烈地激活，从而推断其语义含义。例如，一个在 “capital”（首都）相关语境中激活的特征被标记为 “capital 概念” 特征，而另一个在多种语言中激活的特征则被标记为 “多语言抽象特征”。

构建归因图的核心是计算特征之间的因果影响力。研究团队使用目标加权预期残差归因（TWERA）权重来估计全局特征交互，并在此基础上针对特定提示构建局部归因图。图中节点代表特征，边代表因果影响，边的权重表示影响的强度。为了使图谱可读，研究团队进行了两步简化：首先将相关特征手动分组为 “超节点”（Supernode），然后对图进行剪枝，移除对输出贡献较小的节点和边。

多步推理的内部机制追踪

归因图谱最引人注目的应用场景之一是追踪模型的多步推理能力。以经典的地名推理问题 “Fact: the capital of the state containing Dallas is” 为例，模型正确输出 “Austin”。通过归因图分析，研究团队发现了两个并行的推理路径：一是从 "Dallas" 特征到 "Texas" 特征再到 "Austin" 特征的两跳路径，二是从 "Dallas" 直接到 "Austin” 的快捷路径。这表明模型同时使用了显式推理和记忆捷径，而非单一的推理模式。

更关键的是，研究团队通过干预实验验证了这一发现。当抑制 "Texas" 特征时，输出从 "Austin" 变为其他州首府；而当将 "Texas" 特征替换为 "California" 特征时，模型输出从 "Austin" 变为 "Sacramento"。这一替换实验直接证明了中间表征（Texas）对最终输出的因果驱动作用。

类似的方法也被应用于分析诗歌创作中的规划行为。研究团队发现，Claude 3.5 Haiku 在写诗前会在换行符位置预先激活候选韵脚词汇的特征。例如在写第二行前，模型已经在换行符上激活了 "rabbit" 和 "habit" 等韵脚候选词的特征，这些特征随后影响中间词汇的选择，使整行自然地以目标词汇收尾。通过抑制 "rabbit" 特征并激活 "green" 特征，模型能够将结尾从 "rabbit" 改为 "green"，证明了规划特征对输出内容的因果控制。

注意力机制的补充分析

归因图谱方法也有其局限性。研究团队坦承，当前方法并未直接解释注意力模式的计算方式，这在某些场景下构成了分析盲区。例如在多语言任务中，一个关键的交互（反义词到对应词）似乎通过注意力头的 QK 电路实现，而这种方式在当前的特征图中不可见。

为弥补这一不足，研究团队将归因图分析与注意力模式分析相结合。在法语反义词任务中，研究团队发现语言检测特征在早期层激活，反义词特征在中间层激活，而最终输出特征在后期层激活。注意力头负责在不同位置之间传递信息，但特征层面的因果图仍能揭示计算的整体结构。研究团队还观察到，模型在不同语言间共享语言无关的抽象特征，这些特征在中间层最为突出，而输入输出层则更多呈现语言特定性。

干预实验与验证框架

归因图谱的有效性最终需要通过干预实验来验证。研究团队采用 “约束修补”（Constrained Patching）技术：在指定层将特征激活钳制为扰动值，从而阻断扰动在该层之前的间接效应。这一设计确保了干预效果在指定层之前与归因图预测完全一致，而干预之后的层可能因图谱未捕获的机制而出现偏差。

在有害请求拒绝分析中，研究团队识别出三个关键特征群：混合化学品的危险特征、有害请求特征和拒绝特征。通过抑制有害请求特征，模型从拒绝转为顺从；通过抑制默认拒绝特征，模型转向提供安全警告而非直接拒绝。这些实验表明，归因图不仅能描述已知机制，还能发现潜在的干预点。

值得注意的是，研究团队发现约四分之一的提示能产生令人满意的归因图洞察。这一成功率受多种因素影响：推理无法简化为单一关键令牌的提示、长提示、需多步内部推理的复杂任务，以及模型未在训练分布内学习的非常规实体，都会降低方法的有效性。

归因图谱方法代表了可解释性研究从 “观察行为” 向 “揭示机制” 的范式转变。虽然当前方法仍有显著局限，但它已经揭示了 Claude 内部令人惊讶的复杂推理结构 —— 包括前瞻性规划、目标回溯推理、元认知回路，以及跨语言的抽象表示。这些发现为未来的 AI 安全审计和模型改进提供了新的工具集。

资料来源：本文核心方法论与案例分析基于 Anthropic 研究团队论文《On the Biology of a Large Language Model》及配套方法论文，部分实现细节参考 MarkTechPost 的技术报道。

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。