自回归语言模型(Autoregressive Language Models)以 next-token prediction 为核心训练目标,在过去几年中展现出惊人的能力。然而,这一范式是否真的足以支撑人类级别的智能?近期研究揭示了 next-token prediction 在训练阶段和推理阶段存在的结构性缺陷,并提出了多 token 预测等替代方案。
两种失败模式的区分
理解 next-token prediction 的局限,首先需要区分两种截然不同的失败模式:
推理阶段的雪球效应(Snowballing Errors):在自回归推理过程中,模型每一步的微小错误会随序列长度指数级累积。即使单步错误率仅为 1%,经过 200 个 token 后,整体错误概率将飙升至 86%。这一观点由 LeCun 等人多次强调,认为自回归模型缺乏显式的规划与回溯机制。
训练阶段的 Teacher-Forcing 失败:更为根本的问题在于训练阶段。Teacher-forcing 策略在训练时向模型暴露 ground truth 前缀,导致模型可能学到 "捷径"(shortcuts)而非真正的因果机制。这种失败与推理阶段的雪球效应本质不同 —— 它发生在模型学习如何预测之前。
Clever Hans 作弊与不可解读的 Token
Google Research 的论文《The Pitfalls of Next-Token Prediction》通过路径查找任务(path-finding on path-star graphs)揭示了 teacher-forcing 的核心问题:
Clever Hans 作弊:在训练时,模型可以通过观察已揭示的 ground truth 前缀来 "作弊"。例如,在路径查找任务中,预测第 i 个节点时,模型可以利用已知的第 i-1 个节点信息,通过简单的邻接关系推断而非真正的路径规划。这种捷径在训练数据上表现完美,但无法泛化到新样本。
不可解读的 Token(Indecipherable Token):当模型通过捷径学会了预测后续 token 后,早期 token(如路径的第一个节点)失去了监督信号。因为这些早期 token 无法通过捷径学习,而完整的规划信息又已被 "吸收" 到捷径中,导致模型在测试时无法正确生成这些关键的起始 token。
实验表明,在简单的路径星形图上,即使训练数据达到 20 万样本,标准 teacher-forcing 训练的 Transformer 和 Mamba 模型在分布内测试(in-distribution)上的准确率仍仅为随机猜测水平(约 1/d,d 为节点度数)。
多 Token 预测:一种可能的出路
针对上述问题,研究者提出了几种训练范式改进:
Teacherless Training(无教师训练):在训练时用无信息的占位符(如特殊 token $)替代 ground truth 前缀,强制模型仅依赖输入前缀进行多步预测。实验显示,这种方法在部分简单图结构上能够成功学习,验证了 Clever Hans 作弊确实是导致失败的关键因素。
序列反转训练:将目标序列从右到左训练,使得每个 token 的预测都变成确定性的 "回溯" 问题而非前瞻规划。在路径查找任务中,这种方法使模型达到了近乎完美的准确率,因为反向路径的每个节点都有唯一的入边。
多 Token 预测目标:Monea 等人提出的并行推测采样(PaSS)方法,在训练时同时预测多个未来 token 而非仅下一个 token。这迫使模型进行更远期的规划,减少了对单步捷径的依赖。
对 LLM 发展的启示
这些发现对当前 LLM 的发展具有深远影响:
Chain-of-Thought 的必要性:研究表明,对于需要多步推理的任务,显式的中间步骤监督(chain-of-thought)可能是必要的。没有这些中间监督,模型可能无法学会正确的推理路径。
世界模型与规划:LeCun 倡导的基于世界模型的架构(如 JEPA)试图从根本上解决规划问题,通过显式的状态预测和规划机制替代纯粹的自回归生成。
数据效率与样本质量:并非所有训练数据都是等价的。高质量的数据应当包含显式的推理步骤,而非仅仅是输入 - 输出对。这也解释了为什么在某些任务上,经过 RLHF 微调的模型表现优于基础模型 —— 人类反馈可能间接提供了缺失的中间监督信号。
结论
Next-token prediction 作为语言模型的基础范式,其局限性正在逐渐被揭示。Teacher-forcing 导致的 Clever Hans 作弊和不可解读 token 问题,揭示了自回归训练在需要前瞻规划的任务上的根本困难。多 token 预测、序列反转训练以及显式的 chain-of-thought 监督,代表了超越 next-token prediction 的可能方向。
对于工程实践而言,这意味着在构建需要复杂推理能力的 AI 系统时,应当考虑:
- 在训练数据中显式包含推理步骤
- 探索多 token 预测等替代训练目标
- 结合检索增强、工具使用等外部机制弥补纯自回归生成的局限
随着这些改进的逐步应用,我们或许能够构建出不仅擅长 "即兴表演",更能进行真正规划的智能系统。
参考来源:
- Bubeck, S., et al. "The Pitfalls of Next-Token Prediction." arXiv:2403.06963 (2024).
- Cao, X., & Vempala, S. S. "Provable Long-Range Benefits of Next-Token Prediction." arXiv:2512.07818 (2025).
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。