LLM 数值表征的涌现规律：从线性假设到对数压缩的量化分析

在大型语言模型的表征空间中，数值究竟以何种几何形态存在？这一问题的答案直接关系到模型在算术推理、数值估计与量级判断等任务上的表现上限。传统观点普遍假设 LLMs 采用线性均匀编码 —— 即数值在隐藏状态空间中遵循等距排列，然而近期的研究表明这一假设过于简化。来自 MBZUAI 与东北大学的研究团队通过系统的表征相似度分析，揭示了不同 LLM 架构在数值编码上涌现出的共性特征：对数压缩（sublinear scaling）。这一发现不仅修正了线性假设的局限性，更为跨模型迁移与数值推理优化提供了可量化的工程依据。

表征分析的三维度量框架

要深入理解 LLMs 内部如何组织数值信息，研究者需要一套严格的分析框架。该框架基于三个核心指标构建：单调性系数（Spearman ρ）、缩放率指数（SRI, β）以及解释方差（σ²）。单调性系数用于衡量模型是否保持数值的大小顺序，通过比较原始数值序列与其表征投影序列的秩次相关性得到，取值范围为负一至正一，绝对值越接近一表示顺序保持越好。缩放率指数则用于量化表征空间对数值的压缩程度，其定义借鉴了函数逼近的思想：若将原始数值 10^i 映射到表征 f_LLM (i) ≈ α・β^i，则 β 的数值直接决定了压缩特性 ——β>1 表示超线性（指数级）增长，β≈1 表示对数线性，β<1 则表示亚对数压缩。解释方差则反映数值信息在主成分上的集中程度，数值越高说明数值表征越结构化地分布在一维子空间中。

在实验设计上，研究者将数值划分为对数间隔的组别 G_i = {10^i - 19, ..., 10^i + 20}，使得较大数值组对应指数级更大的量级，从而能够检验模型在不同数量级上的表征行为。模型接收形如「a=a, b=b, c=c, x=」的提示，从等号 token 的隐藏状态中提取表征向量，随后对整个隐藏状态集合进行主成分分析（PCA）或偏最小二乘（PLS）投影，考察一维投影与原始数值的几何关系。

多模型涌现的共性特征

对 LLaMA-2-7B、Pythia-2.8B、GPT-2 Large、Mistral-7B 等模型的系统分析揭示了令人惊讶的一致性。在解释方差方面，所有模型的数值表征均显著高于字母序列表征，表明数值信息天然地组织在一维流形上，呈现类似「数轴」的线性结构。单调性系数在多数模型的中后层达到峰值，超过 0.9 的 ρ 值说明模型能够可靠地保持数值的大小顺序。然而，最关键的发现来自缩放率指数：LLaMA-2-7B、Pythia 和 GPT-2 Large 均表现出 β<1 的亚对数特性，即随着数值增大，相邻数值之间的表征距离逐渐收窄。

这种压缩模式与人类认知中的「心理数轴」高度吻合。神经科学研究表明，人类天然以对数尺度感知数量，较小的数值拥有更高的认知分辨率，较大的数值则被压缩处理。LLMs 通过大规模文本预训练，竟自主涌现出了类似的表征策略。值得注意的是，Mistral-7B 表现出接近 β≈1 的准对数特性，而部分更小的模型则呈现略高于一的 β 值，这暗示压缩程度可能与模型规模存在一定关联，但并非线性单调 —— 关键在于预训练数据中数值的分布密度与上下文多样性。

实验还区分了 PCA 与 PLS 两种投影方法的行为差异。PLS 作为监督线性探针，在最大化与目标变量协方差的过程中会扭曲点间的原始几何关系，因而容易高估线性程度、掩盖亚对数特性。PCA 作为无监督方法，能够更忠实地保留数据内在的几何结构，因此是检测对数压缩的首选工具。这一方法论差异为后续研究提供了重要警示：仅依赖线性探针可能遗漏表征空间中的非线性结构。

层间动态与任务迁移的启示

表征分析不能仅看单层输出，层间演化同样蕴含关键信息。实验表明，数值信息的结构化程度随层深呈现倒 U 型曲线：浅层解释方差较低，数值表征尚混杂于通用语义空间中；中层（通常为总层数的 60%–80% 处）达到峰值，单调性与缩放率指数同时最优；深层则可能因任务特定输出需求而出现一定程度的解构。这一规律在不同模型间高度一致，暗示存在一个「数值表征成熟层」的涌现节点。

在真实世界任务验证中，研究者进一步考察了出生年份与人口数量两类数值。出生年份由于其时间序列的自然顺序性，在 Llama-3.1-8B 上表现出强单调性（ρ>0.9）与高解释方差，β 值同样指向明显的对数压缩。人口数量由于受地理、政治、报告方式等多因素干扰，结构化程度相对较弱，但仍保持可检测的单调趋势。这一结果表明：对数压缩并非实验环境的 artifacts，而是模型在真实数值理解中普遍采用的表征策略。

工程实践的参数化建议

基于上述发现，可以为 LLM 数值推理优化提供以下可落地的参数化建议。

第一，数值编码格式的选取应考虑目标模型的表征特性。 由于模型天然采用对数压缩，在需要精细量级区分的场景（如金融分析、科学计算）中，可考虑引入显式的数值归一化或对数变换作为输入预处理，使模型无需自行完成压缩，从而释放更多参数容量用于推理本身。实验表明，采用 base-10 逐位编码（digit-wise encoding）配合适当的位数填充，能够使模型更有效地利用其逐位表征能力。

第二，在构建检索增强或思维链提示时，应优先选中后层（约 60%–80% 层深）作为表征提取位置。 此时单调性与解释方差均达到最优，能够获得最可靠的数值关系表征。若任务涉及跨模型迁移，可先在源模型上定位其数值表征峰值层，再据此设计目标模型的对齐策略。

第三，对于数值外推任务，需警惕对数压缩导致的精度损失。 模型在训练数据覆盖的数值范围内表现优异，但对于超出分布的极大或极小数值，表征距离的进一步压缩会导致区分度下降。实践中可在推理阶段引入数值范围的边界检测与显式修正，当输入数值超出训练分布一定比例（如一个数量级）时，触发备用计算路径或回退到精确计算器。

第四，评估指标的设计应纳入结构化度量。 传统的准确率或 F1 分数仅反映最终答案的正确性，无法揭示模型内部表征的健康程度。建议在模型评估流程中加入表征单调性探针与缩放率估计，作为模型数值推理能力的早期预警指标。当 ρ<0.8 或 β 偏离 [0.7, 1.3] 区间时，应触发对模型数值表征的专项微调。

第五，微调数据配比应注重数值多样性与量级覆盖。 建议在训练集中确保各数量级（个位、十位、百位、千位及以上）均有足够的样本覆盖，避免模型在特定数值区间过度拟合而丧失对其他区间的表征能力。实验表明，对数间隔的数值采样策略能够更高效地覆盖多个数量级，是数据策划的推荐方案。

监控与回滚的关键阈值

在生产环境中部署涉及数值推理的 LLM 应用时，建议建立以下监控阈值体系。当探针测试的单调性系数持续低于 0.85 时，表明模型可能出现了表征退化或分布偏移，应触发告警并考虑模型回滚。缩放率指数 β 若偏离基准区间 [0.7, 1.3] 超过两个标准差，暗示模型可能正在丧失对特定量级的区分能力，需重新进行数值专项微调。解释方差的骤降则可能预示着输入分布的显著变化 —— 例如用户开始频繁输入非标准数值格式 —— 此时应检查输入预处理流程是否仍然适配。

从系统设计的角度，建议在 LLM 服务层嵌入轻量级的表征探针模块，以固定间隔（如每处理 1000 条请求）对数值输入进行隐藏状态抽样与在线度量计算，实现数值表征健康度的持续可观测。这种前置的监控能力能够在用户感受到准确率下降之前就捕获潜在问题，为模型更新与干预争取宝贵的响应时间窗口。

小结

LLMs 在数值表征上涌现出的对数压缩特性，揭示了预训练过程自发形成的认知类比机制。这一共性不受模型架构（Decoder-only、Encoder-Decoder）或规模的严格约束，说明对数压缩可能是大规模语言建模中数值理解的「自然涌现解」。理解并利用这一特性，能够在数值推理优化、跨模型迁移与生产监控等多个环节提供明确的量化依据与工程方向。

资料来源：本文核心实验数据与方法论来自 MBZUAI 研究论文《Number Representations in LLMs: A Computational Parallel to Human Perception》（arXiv:2502.16147），该研究首次系统性地以 PCA/PLS 几何分析方法揭示了多种主流 LLM 的对数压缩表征行为。

ai-systems