LLM机制可解释性：用电路追踪解构注意力决策路径

传统观念将大语言模型视为不可解释的黑盒，但 Anthropic 2025 年的里程碑研究《On the Biology of a Large Language Model》正在改变这一认知。通过机制可解释性（Mechanistic Interpretability）与电路追踪（Circuit Tracing）技术，我们得以窥见模型内部真正的决策路径 —— 不是统计相关性，而是可追踪的概念激活链路。

超位置困境：为什么直接观察神经元行不通

理解 LLM 内部运作的首要障碍是 ** 超位置（Superposition）** 现象。与早期神经网络不同，现代 Transformer 中的单个神经元并非对应单一概念，而是同时参与数百个无关概念的表征。反之，任何一个具体概念（如 "Texas"）都分散在大量神经元的激活模式中。

这种分布式表征机制意味着你无法通过观察单个神经元的激活值来读取其 "含义"。传统的可解释性方法 —— 如分析特定层的注意力头或 MLP 神经元 —— 只能捕捉到碎片化的信号，无法还原完整的推理链条。这迫使研究者寻找更精细的分解方法。

电路追踪：从激活到可解释特征

Anthropic 提出的解决方案是训练一个稀疏替换模型（Sparse Replacement Model）。该模型以原始 Transformer 的 MLP 层输出为监督目标，学习用稀疏的、人类可解释的特征来重建这些激活。

关键发现是：这种稀疏分解确实捕捉到了高层次概念。替换模型学到的特征能够对应 "Dallas"、"Texas"、"Austin" 等人类可直接理解的语义单元。一旦获得这些离散特征，研究者就能追踪它们在正向传播过程中的交互关系，构建出因果关联的电路图。

具体实施时，电路追踪遵循以下流程：首先定位输入触发的初始特征激活，然后追踪这些特征如何通过注意力机制与 MLP 层影响后续特征，最终映射出从输入到输出的完整概念传播路径。这种方法将原本连续的激活张量转化为离散的、可解释的因果链条。

可视化多步推理：Dallas → Texas → Austin

电路追踪最直观的成果是揭示了模型的真实多步推理过程。当询问 "包含 Dallas 的州的首府是哪里" 时，研究者观察到清晰的概念激活序列：

Dallas 特征首先激活，触发地理定位
该激活传播至Texas 特征，完成州级归属判断
最终激活Austin 特征，输出答案

这种可视化提供了强有力的证据：LLM 确实在执行类似符号推理的多步计算，而非简单的模式匹配。每个中间步骤都对应可解释的概念节点，形成伪符号的推理链条。更令人惊讶的是，模型在生成诗歌时会 "预先思考" 未来可能的押韵候选词，展现出前向规划能力。

发现非人类算法：Claude 的整数加法机制

电路追踪不仅验证了人类可理解的推理，还揭示了模型采用的非直觉算法。以 Claude 3.5 Haiku 的两位数加法为例（如 36+59），电路分析显示它并未模仿人类的心算过程，而是采用并行路径策略：

路径一：计算粗略的数量级估计
路径二：精确计算个位数结果
路径三：依赖记忆化的 "查找表" 特征进行快速检索

三条路径同时执行，最终结果被动态组合。这种算法设计在人类数学认知中极为罕见，却可能是 Transformer 架构在特定规模下的最优解。这一发现提出了重要问题：如果我们能识别这些非人类算法，是否可以引导模型学习更符合人类预期的计算路径？

模型的 "潜意识"：元认知的缺失

电路追踪揭示了一个深层矛盾：模型能够执行复杂的内部推理，却无法元认知地理解自己的思考过程。当直接询问 Claude 如何计算 36+59 时，它会给出 tidy 的人类式解释 —— 分步相加、进位处理 —— 但这与电路追踪揭示的并行查找表机制完全不同。

这意味着模型拥有某种 "潜意识" 层面：它执行一套算法，却用另一套叙事来解释自己的行为。这种分离对于 AI 安全具有深远影响 —— 模型的自我报告可能无法反映其真实的内部状态，单纯依赖对话层面的可解释性是不够的。

工程实践建议

对于希望应用机制可解释性的工程团队，以下参数与检查点值得参考：

稀疏特征提取阈值

特征稀疏度目标：>90% 的激活集中在 < 10% 的特征上
替换模型训练步数：通常需要原始模型预训练步数的 1%-5%
特征可解释性验证：人工标注样本≥100 个特征

电路追踪检查清单

输入概念是否触发预期的初始特征激活
中间概念节点是否形成连贯的语义链条
最终输出特征与预期答案的对应关系
干预测试：抑制关键特征是否导致预期行为改变

监控指标

特征激活的稳定性（跨输入变化系数 < 0.3）
电路路径的一致性（重复实验路径重合度 > 80%）
异常激活模式检测（偏离训练分布 > 2 标准差）

局限与未来方向

当前电路追踪技术仍面临显著限制。稀疏替换模型的训练需要大量计算资源，且特征分解的质量高度依赖超参数调优。更重要的是，超位置问题在更大规模模型中可能更加复杂，现有方法能否扩展到百亿参数级别仍是开放问题。

尽管如此，机制可解释性已经证明 LLM 远非不可解释的黑盒。通过注意力权重可视化与神经元激活追踪，我们得以解构模型的内部决策路径，实现真正的因果可解释性。这不仅有助于识别模型错误行为、设计更安全的 AI 系统，更为理解智能本身的计算本质提供了新视角。

参考来源

Jay Hack, "LLMs are not the Black Box you were promised", 2026
Anthropic, "On the Biology of a Large Language Model", 2025
DeepMind, AlphaZero concept learning analysis, 2022

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。