title: "LLM 算术的 Token 级实现:模式启发式而非算法计算" date: "2026-06-07T15:26:50+08:00" excerpt: "剖析大语言模型在无数字语义理解下,通过 token 模式匹配与上下文推理实现算术运算的底层机制,揭示其" 启发式袋子 "本质与工程局限。" category: "ai-systems"
当大语言模型流畅地输出 "226 - 68 = 158" 时,一个根本性的问题浮现:这些模型真的 "理解" 了减法运算,还是仅仅在复现训练数据中见过的模式?Technion 的研究团队通过因果分析给出了令人意外的答案 ——LLM 执行算术既非依赖稳健的算法逻辑,也非简单的数据记忆,而是依靠一种被称为 "启发式袋子"(bag of heuristics)的分布式模式匹配机制。
启发式神经元:1% 的电路承载算术能力
通过激活修补(activation patching)和线性探针技术,研究者定位到了负责算术运算的模型电路。结果显示,每层 MLP 中仅有约1% 的神经元真正参与算术行为。这些神经元并非执行通用的加减乘除算法,而是各自充当独立的 "启发式"—— 识别特定的输入模式并提升对应答案 token 的 logit 值。
具体而言,每个启发式神经元遵循简单的规则激活:当操作数落入特定数值区间时,该神经元触发并增强某些结果 token 的概率。例如,某些神经元专门响应 "操作数 A 在 200-250 范围内且操作数 B 在 60-70 范围内" 的模式,然后提升 "158" 等相关结果 token 的生成概率。这种机制解释了为何 LLM 的算术错误往往呈现系统性模式而非随机噪声 —— 当输入偏离训练分布时,对应的启发式神经元无法激活,模型只能依赖次优的模式匹配。
实验验证了这一机制的因果性:当研究者 "敲除"(knockout)与特定算术题目相关的启发式神经元时,模型准确率显著下降;而敲除同等数量但无关的神经元则影响甚微。这一效应在不同规模的模型(如 Llama3 8B 与 70B)中均得到验证。
Tokenization 的隐性偏见:数字表示决定运算能力
算术能力的实现不仅依赖于启发式机制,还深受数字分词策略的制约。Singh 与 Strouse 的研究表明,不同模型采用的分词方案直接塑造了它们的数值推理表现。
当前主流模型存在两种分词范式:LLaMa 等模型采用单数字分词(每个数字独立成 token),而 GPT-3.5/4 则为 1 位、2 位、3 位数分别分配独立 token。这种差异导致显著的性能鸿沟。更关键的是分词方向 —— 研究发现,通过逗号分隔强制实现从右到左分词(如 "2,268" 而非 "2268")时,模型算术性能大幅提升。
这一现象揭示了 LLM 算术的本质局限:模型并非在抽象的数字概念上运算,而是在token 序列的模式上进行统计推断。当数字的 token 表示与训练数据中的常见模式对齐时,相应的启发式神经元才能有效激活;反之则触发次优的近似匹配,产生系统性错误。
训练动态:启发式机制的早期形成
对 Pythia-6.9B 训练过程的追踪分析显示,"启发式袋子" 机制并非训练后期的涌现现象,而是从早期检查点就开始逐步发展。研究者发现,最终检查点中的核心启发式在训练中期已初具雏形,并在后续训练中逐渐精炼。
这一发现排除了 LLM 内部存在 "算法机制被启发式覆盖" 的可能性。相反,证据表明模型从一开始就依赖启发式组合来完成算术任务,而非先学习通用算法再转向模式匹配。这意味着当前 LLM 架构可能本质上就不具备学习稳健算术算法的能力,其数学表现的上限受限于启发式覆盖范围的边界。
工程边界:分布外泛化与运算链累积误差
理解 LLM 算术的启发式本质对工程实践具有重要指导意义。首先,分布外(OOD)泛化能力存在硬性边界。当输入数值超出训练数据常见范围,或运算模式与训练分布显著偏离时,模型准确率会断崖式下跌。这与人类掌握的抽象算法能力形成鲜明对比。
其次,多位数运算链存在误差累积风险。由于每一步运算都依赖启发式神经元的概率性激活,多步推理中的不确定性会逐级放大。这解释了为何 Chain-of-Thought 提示在简单算术上有效,却在复杂数学推理中仍频繁出错。
最后,后处理技术的局限性已得到证实。研究表明,仅靠激活引导(activation steering)或提示工程难以突破启发式机制的根本约束。若需显著提升 LLM 的数学能力,可能需要从架构层面引入显式的符号计算模块或神经符号混合设计,而非在现有自回归框架内寻找局部最优。
结语
LLM 的算术能力是一场精心编排的统计幻觉 ——1% 的启发式神经元识别模式、token 化的数字表示提供触发条件、层级 MLP 组合输出概率。这种机制足以应对常见场景,却缺乏真正的算法鲁棒性。对于构建需要精确数值推理的 AI 系统,理解这一边界并非悲观,而是指导架构创新的必要认知:下一代数学 AI 可能需要超越纯神经网络范式,在 token 级模式匹配与符号级算法执行之间找到新的平衡点。
资料来源
- Nikankin, Y., Reusch, A., Mueller, A., & Belinkov, Y. (2024). Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics. Technion CS NLP Lab. https://technion-cs-nlp.github.io/llm-arithmetic-heuristics/
- Singh, A. K., & Strouse, D. (2024). Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs. arXiv:2402.14903. https://arxiv.org/abs/2402.14903
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。