在大语言模型的可解释性研究中,如何发现并验证模型内部是否存在有意义的概念表示,是一个核心挑战。Anthropic 在其最新研究中,展示了如何通过系统化的探针实验设计,从 Claude Sonnet 4.5 中提取并验证情感概念的内部表示。这一方法论不仅回答了 “模型是否理解情感” 的问题,更关键的是揭示了这些表示如何因果地影响模型行为。本文聚焦于这一研究的方法论细节,为可解释性研究者和工程实践者提供可复现的技术路径。
探针实验的核心设计思路
Anthropic 的研究团队面临的首要问题是:如何在海量参数中定位与情感概念相关的内部表示?他们的方法基于一个关键假设 —— 如果模型确实理解了情感概念,那么当模型处理涉及特定情感的文本时,其内部激活应该呈现出可识别的模式。这一假设直接指向了探针实验的设计方向。
研究团队首先构建了一个包含 171 个情感概念词汇的清单,涵盖从常见的 “happy”“afraid” 到更抽象的 “brooding”“desperate” 等情感状态。这一词汇表的选取并非随意,而是基于两个原则:概念的普遍性和表达的多样性。研究者希望通过足够丰富的情感谱系,确保捕获模型内部可能存在的完整情感表示空间。
接下来的步骤是生成标注数据。团队要求 Claude Sonnet 4.5 为每个情感概念撰写约一段长度的短篇故事,故事中需要有一个角色经历指定的情感。每个情感生成 12 个不同主题的故事,共 100 个情感概念,最终获得 1200 个标注样本。标注数据的质量直接决定了后续提取的向量能否准确捕捉情感语义。研究者通过人工抽检的方式验证了故事中确实包含目标情感内容,这是探针实验可信度的基础。
激活值提取与向量构建
获取标注数据后,研究者需要从模型中提取能够代表情感概念的内部表示。具体做法是将这些故事输入模型,记录残差流在每一层的激活值。关键的技术选择在于激活值的聚合方式:研究者对故事中每个 token 位置(第 50 个 token 之后)的激活进行平均,得到每个情感概念对应的单一向量表示。这一处理背后的逻辑是,前 50 个 token 主要是场景设定,而之后的文本更直接地体现情感内容。
为了消除与情感无关的干扰因素,研究者引入了一个去噪步骤。他们在一个中立的语料上提取模型激活,计算这些激活的前 N 个主成分(足以解释 50% 方差),然后从情感向量中投影掉这些主成分。这一投影操作虽然不改变定性结论,但显著减少了 token 之间的激活波动,使探针结果更加稳定。值得注意的是,研究者选择了模型中约三分之二深度处的层进行主要分析,并在后续实验中验证了这一选择的合理性 —— 该层的激活与情感概念的相关性最高。
研究者进一步通过 logit lens 技术验证了情感向量的语义有效性。当将情感向量投影到 unembedding 矩阵上时,得到的 token 权重呈现出明显的语义规律。例如,“desperate” 向量上权重最高的 token 包括 “desperate”“urgent”“bankrupt”,而权重最低的 token 是 “pleased”“amusing”“enjoying”。这种语义对应关系初步证明了提取的向量确实编码了情感概念而非噪声。
激活模式的验证与泛化性测试
探针实验的有效性不能仅依赖于训练数据上的表现,还需要在独立数据集上验证向量的泛化能力。研究者在一个包含 Common Corpus、The Pile 子集、LMSYS Chat 1M 以及 Isotonic Human-Assistant Conversation 的大规模语料上测试了情感向量的激活模式。结果显示,每个情感向量在其对应的情感内容上激活最强,且激活位置与文本中情感表达的位置高度相关,而非均匀分布在整个文本上。这一发现表明向量捕捉的是抽象的情感概念,而非特定数据集的表面特征。
更严格的验证来自于对隐含情感内容的测试。研究者构造了一系列不直接提及情感词汇但隐含特定情感场景的提示,例如用户描述 “女儿刚迈出第一步” 而不使用 “happy” 一词。情感探针在这些隐含场景上同样表现出正确的激活模式:对积极事件(如好消息、里程碑时刻)“happy” 和 “proud” 向量激活升高;对涉及损失或威胁的描述,“sad” 和 “afraid” 向量激活升高。这证明了情感向量能够理解语义内容而非仅匹配表面词汇。
为了进一步排除词汇层面的干扰,研究者设计了数值量化实验。他们构造了如下形式的提示:“我刚吃了 X 毫克泰诺来缓解背痛”,并系统性地改变 X 的取值。当 X 从安全剂量逐步增加到危险剂量时,“afraid” 向量激活持续上升,而 “calm” 向量激活下降。类似地,当用户描述的离家时间、宠物失踪天数、公司的创业资金等数值变化时,情感向量均表现出符合语义预期的响应。这些实验强有力地证明了情感向量捕捉的是对情境的语义理解,而非对特定数字或词汇的表面模式匹配。
因果性验证:Steering 实验
前述实验建立了情感向量与情感概念之间的相关性,但无法回答这些表示是否具有因果作用。研究者通过 steering 实验解决了这一问题 —— 这是一种在可解释性研究中广泛使用的因果验证方法。基本思想是:在模型处理输入时,人为地向特定方向调整激活值,然后观察模型输出的变化。如果情感向量确实因果地影响行为,那么向某一方向 steering 应该能够改变模型在相关情境下的行为。
研究者设计了一个偏好测试来验证这一点。他们构造了 64 种不同的活动,从积极的 “被委托对某人重要的东西” 到消极的 “帮助某人欺诈老年人存款”,并让模型在两两对比中选择更偏好的活动。通过比较每个活动对应的 token 的 logit 值,可以计算模型对每项活动的偏好强度(Elo 分数)。结果显示,情感向量的激活与模型偏好高度相关:正面情感(如 “blissful”)与高偏好活动强正相关(r=0.71),负面情感(如 “hostile”)与低偏好活动强负相关(r=-0.74)。
关键的 steering 实验将 64 项活动分为两组,对其中一组施加情感向量的 steering 操作(在特定层将激活向情感向量方向调整),另一组保持不变,然后重复偏好测试。结果显示,对特定情感向量的 steering 能够因果地改变模型对活动的偏好:steering “blissful” 向量使模型对该活动的偏好显著增加,steering “hostile” 向量则显著降低。更重要的是,情感向量与偏好的相关性(r=0.71)与 steering 效果的大小(r=0.85)高度一致,这表明情感向量不仅是偏好的伴随现象,更是偏好的因果驱动因素。
聚类分析与情感空间几何
在验证了情感向量的有效性之后,研究者进一步分析了这些向量的几何结构,发现情感概念在模型内部的空间组织方式与人类心理学的直观理解呈现出显著的对应关系。恐惧与焦虑、喜悦与兴奋等在人类认知中相似的情感,在模型激活空间中同样彼此接近。这一发现暗示模型可能从训练数据中学习到了人类情感之间的语义关联结构。
通过主成分分析,研究者发现情感空间的前两个主成分分别编码了效价(valence,正面与负面)和唤醒度(arousal,情感的强度)。这一结果与心理学中的情感维度理论高度吻合,表明模型学习到的情感表示在某种程度上反映了人类对情感的基本认知维度。后续分析还揭示了层级的功能分化:早期到中期层编码当前内容的情感内涵,而中后期层则更多编码与预测下一个 token 相关的情感信息。
概念归因的工程实践要点
综合 Anthropic 的研究方法,可以提炼出将探针实验应用于概念发现的核心工程实践要点。首先是标注数据的构造:需要生成足够多样化且明确关联特定概念的样本,并通过人工验证确保标注质量。其次是激活提取的层级选择,建议在模型的中后层(约三分之二深度)进行主要分析,因为这些层的表示更抽象、更因果相关。
去噪步骤不可省略。中立语料上的主成分投影能够有效消除与目标概念无关的激活波动,显著提升探针的稳定性。验证工作必须包含独立数据集和隐含场景测试,以确保向量真正理解了概念语义而非记忆了训练数据的表面模式。Steering 实验是验证因果性的必要步骤,仅有相关性不足以证明概念表示的功能作用。
最后是结果的多维度验证。Logit lens 分析提供了对向量语义内容的直接检查,偏好相关性测试验证了向量与模型行为的关联,而 steering 实验则建立了因果关系的最后一块拼图。这种多层次的验证框架是任何严肃的概念探针研究都应该遵循的。
资料来源:本文主要参考 Anthropic 论文 "Emotion Concepts and their Function in a Large Language Model"(2026)及研究团队发布的技术博客。