Hotdry.

Article

LLM算术能力的本质:token级启发式集合而非算法执行

揭示大语言模型如何通过稀疏的MLP神经元启发式集合完成算术运算,而非执行显式算法,并提供可落地的诊断与监控参数。

2026-06-08ai-systems

核心发现:没有算法的算术

近期可解释性研究揭示了一个令人惊讶的事实:大语言模型(LLM)在执行算术任务时,并非运行类似人类竖式加法的显式算法,而是依赖一组分散在 MLP 层中的启发式规则集合(bag of heuristics)。在 Llama3-8B 中,仅需约 1.5% 的神经元(每层约 200 个)即可解释 96% 的算术行为,这些神经元主要分布在中层至深层(第 16-32 层)。

这种机制的核心特征是模式匹配而非符号运算。每个关键神经元实现一个独立的启发式:当输入操作数满足特定数值模式时,该神经元激活并提升对应结果 token 的 logits。例如,某个神经元可能在 "减法结果介于 150-180 之间" 时激活,另一个则在 "第一个操作数为偶数" 时触发。最终答案由多个此类启发式的无序叠加产生,而非遵循严格的计算步骤。

启发式类型与工作机制

通过逆向工程分析,研究者识别出五类主要启发式模式:

启发式类型 触发条件示例 输出行为
范围(Range) 操作数或结果落在 [a,b] 区间 提升该范围内常见结果的 logits
模运算(Modulo) 值 ≡ m (mod n) 对特定同余类响应
数字模式(Pattern) 匹配正则表达式(如百位为 1、个位为 2) 激活特定数字组合
相同操作数 op1 == op2 促进特定结果(如减法中的 0)
多结果 除法场景 同时提升多个可能结果的 logits

信息流动遵循固定路径:注意力头将操作数和运算符信息从输入位置投射到序列最后位置,随后中层和深层 MLP 在该位置写入答案信息。线性探针实验表明,正确答案的表征直到第 16 层左右才开始形成,印证了深层网络的关键作用。

脆弱性诊断:三种失效模式

这种启发式机制解释了 LLM 算术能力的若干反直觉特性:

交换律违反:在 50,000 对加法问题测试中,部分模型在高达 20% 的案例中正确计算 A+B 却错误计算 B+A。这直接违背了真正算法应具备的代数不变性。

符号映射崩溃:当数字被替换为无关联的符号(如 0→u, 1→d)时,准确率从 99% 骤降至 7.5% 以下。这表明模型依赖的是数字 token 的统计关联,而非抽象的数值概念。

非单调长度曲线:准确率随操作数位长呈现 "下降 - 反弹" 模式(如 4-6 位下降、8-10 位回升),而非算法应有的单调递减或稳定表现。这暗示模型使用了位长特定的启发式补丁。

可落地的诊断与监控参数

基于上述机制,建议在生产环境中部署以下监控策略:

输入扰动测试清单

  • 交换律检查:对关键计算同时查询 A+B 和 B+A,一致性应 > 99%
  • 符号替换测试:每月用随机符号映射替换数字,准确率下降应 < 15%
  • 长度分布监控:统计不同位长问题的准确率,异常波动 > 10% 需告警

模型选型参考

  • 基础模型(base)几乎无法遵循算术指令,必须选用指令微调版本
  • 监督微调(SFT)提升数值准确率但无法改善符号泛化
  • 强化学习(RL)训练的模型在符号任务上表现更好,但峰值数值准确率可能略低

Prompt 设计避坑

  • 显式提供加法规则(如 "从右向左逐位相加,进位")反而可能降低 29% 性能
  • "先解释再计算"(Explain-and-Do)策略可维持基线水平
  • 避免使用与训练数据分布差异过大的数字格式

架构启示

这些发现对 LLM 数学能力改进具有深远意义。当前架构似乎优化于模式识别而非规则抽象,这意味着:

  1. 在医疗剂量计算、财务对账等高风险场景,不应仅依赖模型内置算术,建议外接符号计算引擎或执行验证
  2. 评估基准需超越最终答案准确率,引入交换律一致性、符号不变性等规则性指标
  3. 架构创新可考虑显式数值编码层或神经符号混合设计,以弥补纯启发式机制的泛化缺陷

资料来源:

  • Nikankin et al., "Arithmetic Without Algorithms: Language Models Solve Math with a Bag of Heuristics", arXiv:2410.21272
  • Yan et al., "Do Large Language Models Truly Grasp Addition?", arXiv:2504.05262

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com