LLM算术能力的本质：token级启发式集合而非算法执行

核心发现：没有算法的算术

近期可解释性研究揭示了一个令人惊讶的事实：大语言模型（LLM）在执行算术任务时，并非运行类似人类竖式加法的显式算法，而是依赖一组分散在 MLP 层中的启发式规则集合（bag of heuristics）。在 Llama3-8B 中，仅需约 1.5% 的神经元（每层约 200 个）即可解释 96% 的算术行为，这些神经元主要分布在中层至深层（第 16-32 层）。

这种机制的核心特征是模式匹配而非符号运算。每个关键神经元实现一个独立的启发式：当输入操作数满足特定数值模式时，该神经元激活并提升对应结果 token 的 logits。例如，某个神经元可能在 "减法结果介于 150-180 之间" 时激活，另一个则在 "第一个操作数为偶数" 时触发。最终答案由多个此类启发式的无序叠加产生，而非遵循严格的计算步骤。

启发式类型与工作机制

通过逆向工程分析，研究者识别出五类主要启发式模式：

启发式类型	触发条件示例	输出行为
范围（Range）	操作数或结果落在 [a,b] 区间	提升该范围内常见结果的 logits
模运算（Modulo）	值 ≡ m (mod n)	对特定同余类响应
数字模式（Pattern）	匹配正则表达式（如百位为 1、个位为 2）	激活特定数字组合
相同操作数	op1 == op2	促进特定结果（如减法中的 0）
多结果	除法场景	同时提升多个可能结果的 logits

信息流动遵循固定路径：注意力头将操作数和运算符信息从输入位置投射到序列最后位置，随后中层和深层 MLP 在该位置写入答案信息。线性探针实验表明，正确答案的表征直到第 16 层左右才开始形成，印证了深层网络的关键作用。

脆弱性诊断：三种失效模式

这种启发式机制解释了 LLM 算术能力的若干反直觉特性：

交换律违反：在 50,000 对加法问题测试中，部分模型在高达 20% 的案例中正确计算 A+B 却错误计算 B+A。这直接违背了真正算法应具备的代数不变性。

符号映射崩溃：当数字被替换为无关联的符号（如 0→u, 1→d）时，准确率从 99% 骤降至 7.5% 以下。这表明模型依赖的是数字 token 的统计关联，而非抽象的数值概念。

非单调长度曲线：准确率随操作数位长呈现 "下降 - 反弹" 模式（如 4-6 位下降、8-10 位回升），而非算法应有的单调递减或稳定表现。这暗示模型使用了位长特定的启发式补丁。

可落地的诊断与监控参数

基于上述机制，建议在生产环境中部署以下监控策略：

输入扰动测试清单：

交换律检查：对关键计算同时查询 A+B 和 B+A，一致性应 > 99%
符号替换测试：每月用随机符号映射替换数字，准确率下降应 < 15%
长度分布监控：统计不同位长问题的准确率，异常波动 > 10% 需告警

模型选型参考：

基础模型（base）几乎无法遵循算术指令，必须选用指令微调版本
监督微调（SFT）提升数值准确率但无法改善符号泛化
强化学习（RL）训练的模型在符号任务上表现更好，但峰值数值准确率可能略低

Prompt 设计避坑：

显式提供加法规则（如 "从右向左逐位相加，进位"）反而可能降低 29% 性能
"先解释再计算"（Explain-and-Do）策略可维持基线水平
避免使用与训练数据分布差异过大的数字格式

架构启示

这些发现对 LLM 数学能力改进具有深远意义。当前架构似乎优化于模式识别而非规则抽象，这意味着：

在医疗剂量计算、财务对账等高风险场景，不应仅依赖模型内置算术，建议外接符号计算引擎或执行验证
评估基准需超越最终答案准确率，引入交换律一致性、符号不变性等规则性指标
架构创新可考虑显式数值编码层或神经符号混合设计，以弥补纯启发式机制的泛化缺陷

资料来源：

Nikankin et al., "Arithmetic Without Algorithms: Language Models Solve Math with a Bag of Heuristics", arXiv:2410.21272
Yan et al., "Do Large Language Models Truly Grasp Addition?", arXiv:2504.05262

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。