llm token level arithmetic heuristics

title: "LLM 算术的 Token 级实现：模式启发式而非算法计算" date: "2026-06-07T15:26:50+08:00" excerpt: "剖析大语言模型在无数字语义理解下，通过 token 模式匹配与上下文推理实现算术运算的底层机制，揭示其" 启发式袋子 "本质与工程局限。" category: "ai-systems"

当大语言模型流畅地输出 "226 - 68 = 158" 时，一个根本性的问题浮现：这些模型真的 "理解" 了减法运算，还是仅仅在复现训练数据中见过的模式？Technion 的研究团队通过因果分析给出了令人意外的答案 ——LLM 执行算术既非依赖稳健的算法逻辑，也非简单的数据记忆，而是依靠一种被称为 "启发式袋子"（bag of heuristics）的分布式模式匹配机制。

启发式神经元：1% 的电路承载算术能力

通过激活修补（activation patching）和线性探针技术，研究者定位到了负责算术运算的模型电路。结果显示，每层 MLP 中仅有约1% 的神经元真正参与算术行为。这些神经元并非执行通用的加减乘除算法，而是各自充当独立的 "启发式"—— 识别特定的输入模式并提升对应答案 token 的 logit 值。

具体而言，每个启发式神经元遵循简单的规则激活：当操作数落入特定数值区间时，该神经元触发并增强某些结果 token 的概率。例如，某些神经元专门响应 "操作数 A 在 200-250 范围内且操作数 B 在 60-70 范围内" 的模式，然后提升 "158" 等相关结果 token 的生成概率。这种机制解释了为何 LLM 的算术错误往往呈现系统性模式而非随机噪声 —— 当输入偏离训练分布时，对应的启发式神经元无法激活，模型只能依赖次优的模式匹配。

实验验证了这一机制的因果性：当研究者 "敲除"（knockout）与特定算术题目相关的启发式神经元时，模型准确率显著下降；而敲除同等数量但无关的神经元则影响甚微。这一效应在不同规模的模型（如 Llama3 8B 与 70B）中均得到验证。

Tokenization 的隐性偏见：数字表示决定运算能力

算术能力的实现不仅依赖于启发式机制，还深受数字分词策略的制约。Singh 与 Strouse 的研究表明，不同模型采用的分词方案直接塑造了它们的数值推理表现。

当前主流模型存在两种分词范式：LLaMa 等模型采用单数字分词（每个数字独立成 token），而 GPT-3.5/4 则为 1 位、2 位、3 位数分别分配独立 token。这种差异导致显著的性能鸿沟。更关键的是分词方向 —— 研究发现，通过逗号分隔强制实现从右到左分词（如 "2,268" 而非 "2268"）时，模型算术性能大幅提升。

这一现象揭示了 LLM 算术的本质局限：模型并非在抽象的数字概念上运算，而是在token 序列的模式上进行统计推断。当数字的 token 表示与训练数据中的常见模式对齐时，相应的启发式神经元才能有效激活；反之则触发次优的近似匹配，产生系统性错误。

训练动态：启发式机制的早期形成

对 Pythia-6.9B 训练过程的追踪分析显示，"启发式袋子" 机制并非训练后期的涌现现象，而是从早期检查点就开始逐步发展。研究者发现，最终检查点中的核心启发式在训练中期已初具雏形，并在后续训练中逐渐精炼。

这一发现排除了 LLM 内部存在 "算法机制被启发式覆盖" 的可能性。相反，证据表明模型从一开始就依赖启发式组合来完成算术任务，而非先学习通用算法再转向模式匹配。这意味着当前 LLM 架构可能本质上就不具备学习稳健算术算法的能力，其数学表现的上限受限于启发式覆盖范围的边界。

工程边界：分布外泛化与运算链累积误差

理解 LLM 算术的启发式本质对工程实践具有重要指导意义。首先，分布外（OOD）泛化能力存在硬性边界。当输入数值超出训练数据常见范围，或运算模式与训练分布显著偏离时，模型准确率会断崖式下跌。这与人类掌握的抽象算法能力形成鲜明对比。

其次，多位数运算链存在误差累积风险。由于每一步运算都依赖启发式神经元的概率性激活，多步推理中的不确定性会逐级放大。这解释了为何 Chain-of-Thought 提示在简单算术上有效，却在复杂数学推理中仍频繁出错。

最后，后处理技术的局限性已得到证实。研究表明，仅靠激活引导（activation steering）或提示工程难以突破启发式机制的根本约束。若需显著提升 LLM 的数学能力，可能需要从架构层面引入显式的符号计算模块或神经符号混合设计，而非在现有自回归框架内寻找局部最优。

结语

LLM 的算术能力是一场精心编排的统计幻觉 ——1% 的启发式神经元识别模式、token 化的数字表示提供触发条件、层级 MLP 组合输出概率。这种机制足以应对常见场景，却缺乏真正的算法鲁棒性。对于构建需要精确数值推理的 AI 系统，理解这一边界并非悲观，而是指导架构创新的必要认知：下一代数学 AI 可能需要超越纯神经网络范式，在 token 级模式匹配与符号级算法执行之间找到新的平衡点。

资料来源

Nikankin, Y., Reusch, A., Mueller, A., & Belinkov, Y. (2024). Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics. Technion CS NLP Lab. https://technion-cs-nlp.github.io/llm-arithmetic-heuristics/
Singh, A. K., & Strouse, D. (2024). Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs. arXiv:2402.14903. https://arxiv.org/abs/2402.14903

general

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。