当我们比较不同语言模型的数值推理能力时,常常关注准确率、F1 或困惑度等下游任务指标。然而,这些指标只能告诉我们模型「能否」完成数值相关的任务,却无法揭示模型「如何」在内部表示数字。近期研究表明,尽管 Transformer、线性 RNN、LSTM 等架构差异显著,它们在处理数字 token 时却收敛到了相似的内部表征结构。这种跨架构的表征趋同是否具有普遍性?能否通过系统化的度量方法量化这种相似程度?本文聚焦表征相似性的度量方法论,提供一套可复现的跨模型数值编码评估流水线。
表征相似性度量的必要性
传统上,研究者通过探针(probe)来探测模型是否「理解」了数字。探针是一种可训练的小型分类器,负责从模型的隐藏状态中提取数值信息。如果探针能以较高准确率预测出数字对应的数值,则说明该层编码了可解耦的数值特征。然而,这种方法存在两个显著局限:其一,探针性能高度依赖任务设计和数据分布,不同任务之间的可比性有限;其二,探针只能判断「能否提取」,无法衡量「如何表征」—— 两个模型可能在完全不同的表征空间中编码数值,却在下游任务中表现相近。
表征相似性分析(Representation Similarity Analysis,RSA)提供了一种与任务无关的视角。核心思想是:给定一组输入(比如一系列数字 token),提取模型各层的激活向量,然后比较不同模型或不同层之间的表征结构是否相似。这种比较不依赖于任何下游任务,也不要求模型输出特定标签,因此具备跨模型、跨架构的可比性。
核心度量:Centered Kernel Alignment
在众多表征相似性指标中,Centered Kernel Alignment(CKA)已成为跨模型比较的事实标准。CKA 的核心优势在于其对正交变换和各向同性缩放的不变性 —— 这意味着即使两个模型的表征经过了不同的线性变换,只要它们的相对结构一致,CKA 也能识别出相似性。
数学原理与参数配置
设有两个模型层分别产生激活矩阵 $X \in \mathbb {R}^{d_1 \times n}$ 和 $Y \in \mathbb {R}^{d_2 \times n}$,其中 $d$ 表示隐藏维度,$n$ 表示样本数量。CKA 的计算步骤如下:首先对每个矩阵进行样本级别的中心化,去除均值偏移;然后计算 Gram 矩阵 $K = XX^\top$ 和 $L = YY^\top$;最后通过归一化的迹来衡量两个 Gram 矩阵的对齐程度。线性 CKA 的取值范围为 0 到 1,0 表示完全不相似的表征结构,1 表示完全相同(至多相差线性变换)。
在实际工程实现中,以下参数需要特别注意。样本量 $n$ 直接影响 CKA 的稳定性 —— 当隐藏维度远大于样本量时,有限样本偏差会显著影响结果。研究表明,当 $d > 0.5n$ 时,应启用 debiased 估计器以修正上溢。批处理策略上,建议使用至少 512 个独立样本构成一个批次,以获得统计显著的相似性估计。特征维度 $d$ 的处理则需要谨慎:对于维度差异显著的两个模型,可以在比较前通过随机投影将高维表征映射到相同维度,以消除维度差异带来的干扰。
典型阈值与解释框架
行业基准显示,同一模型相邻层的 CKA 通常在 0.7 至 0.9 之间,呈现平滑的层级递进结构。跨模型比较时,如果 CKA 超过 0.6,通常表明两者在相应层级存在显著的结构共性;低于 0.3 则意味着表征空间几乎没有可比较的组织方式。需要强调的是,CKA 衡量的是「结构相似性」而非「功能等价性」—— 两个模型可能拥有相似的表征几何结构,却在下游推理时表现出截然不同的行为。
数值表征的频域分析:傅里叶频谱方法
除了 CKA 之外,针对数值表征还有一项专门的频域分析方法。该方法源自一个关键发现:不同语言模型在学习数字表示时,都自发地形成了周期性的结构,其基频集中在 2、5 和 10 附近。这种周期性反映了数字在自然语言中的共现模式 ——2、5、10 分别对应二进制、五进制和十进制系统的基元。
频谱提取流程
具体操作步骤如下:首先准备一个包含连续整数序列的输入提示(如「0 1 2 3 ... 99」或等差数列),提取模型在处理每个数字时的隐藏状态,形成激活序列 $h_0, h_1, \ldots, h_N$。然后,对每个隐藏维度独立计算离散傅里叶变换(DFT),得到频域表示 $H_k = \sum_{n=0}^{N-1} h_n e^{-i2\pi kn/N}$。接着,计算每个频率分量的幅度谱 $|H_k|$,并对所有隐藏维度取平均,得到整体频谱。最后,检查幅度谱在特定周期 $T$(对应频率 $f = N/T$)处是否存在显著峰值。
参数建议与质量控制
在频谱分析中,序列长度 $N$ 决定了频率分辨率 —— 要分辨出 $T=10$ 的周期,$N$ 至少需要 20 个采样点,建议使用 $N \ge 128$ 以获得更平滑的频谱估计。窗口函数的选择也很关键:使用汉宁窗(Hanning window)可以减少频谱泄漏,但会略微降低频率分辨率。对于多层模型,建议对每个注意力层和前馈层分别计算频谱,以追踪周期性特征在网络深度上的演化。
流水线工程实现要点
构建可复现的跨模型数值表征评估流水线,需要在数据准备、特征提取、度量计算和结果可视化四个环节进行标准化。
数据准备环节,建议使用两类输入:一类是纯数值序列(等差数列、随机整数、分数、小数),用于测试纯数值编码能力;另一类是混合文本 - 数值序列(「我有 5 个苹果」「温度是 23.5 度」),用于测试上下文依赖的数值理解。每类至少包含 500 个独立样本,以确保统计显著性。特征提取环节,对于每个模型,建议提取中间层和输出层的表征,并在提取时关闭 dropout 等随机化机制,设置一致的随机种子以确保可复现性。度量计算环节,推荐使用 PyTorch 或 JAX 实现的 CKA,并额外计算表征的奇异值谱(Singular Value Spectrum)作为补充指标 —— 奇异值衰减速度反映了表征的信息密度。结果可视化环节,可以生成热力图展示层间 CKA 矩阵,并叠加频谱峰值分布曲线,直观呈现周期性特征的出现位置。
局限性与工程边界
任何度量方法都有其适用边界,CKA 和频谱分析也不例外。CKA 对异常值敏感 —— 单个极端激活值可能显著拉低或抬高整体相似性估计,建议在计算前进行样本级别的 L2 归一化。频谱方法假设表征随数值单调变化,但实际模型可能使用非连续编码(如哈希表式的离散映射),此时频谱分析无法捕获有意义的信息。此外,CKA 只捕捉线性结构相似性 —— 如果两个模型使用完全不同的非线性编码策略却在下游任务中表现相近,CKA 可能给出较低的分数,导致误判。
结语
跨模型数值表征的相似性度量不仅仅是学术探索,更是工程实践中的基础能力。当我们需要判断一个新架构是否「继承」了已有模型的数值推理能力,或者在微调后是否发生了表征漂移时,系统化的相似性度量流水线是不可替代的工具。CKA 提供了结构层面的相似性量化,频谱分析则揭示了数值编码的周期性本征模式。合理配置样本量、启用 debiased 估计、并辅以奇异值谱等补充指标,即可在工程可接受的计算成本下获得稳定、可复现的评估结果。
资料来源:本文核心方法论参考 Centered Kernel Alignment 的标准化实现与 arXiv:2604.20817 中关于不同语言模型数值表征收敛性的实证研究。