Next-Token Prediction 的结构性缺陷：从 Teacher-Forcing 到多 Token 预测的范式转移

自回归语言模型（Autoregressive Language Models）以 next-token prediction 为核心训练目标，在过去几年中展现出惊人的能力。然而，这一范式是否真的足以支撑人类级别的智能？近期研究揭示了 next-token prediction 在训练阶段和推理阶段存在的结构性缺陷，并提出了多 token 预测等替代方案。

两种失败模式的区分

理解 next-token prediction 的局限，首先需要区分两种截然不同的失败模式：

推理阶段的雪球效应（Snowballing Errors）：在自回归推理过程中，模型每一步的微小错误会随序列长度指数级累积。即使单步错误率仅为 1%，经过 200 个 token 后，整体错误概率将飙升至 86%。这一观点由 LeCun 等人多次强调，认为自回归模型缺乏显式的规划与回溯机制。

训练阶段的 Teacher-Forcing 失败：更为根本的问题在于训练阶段。Teacher-forcing 策略在训练时向模型暴露 ground truth 前缀，导致模型可能学到 "捷径"（shortcuts）而非真正的因果机制。这种失败与推理阶段的雪球效应本质不同 —— 它发生在模型学习如何预测之前。

Clever Hans 作弊与不可解读的 Token

Google Research 的论文《The Pitfalls of Next-Token Prediction》通过路径查找任务（path-finding on path-star graphs）揭示了 teacher-forcing 的核心问题：

Clever Hans 作弊：在训练时，模型可以通过观察已揭示的 ground truth 前缀来 "作弊"。例如，在路径查找任务中，预测第 i 个节点时，模型可以利用已知的第 i-1 个节点信息，通过简单的邻接关系推断而非真正的路径规划。这种捷径在训练数据上表现完美，但无法泛化到新样本。

不可解读的 Token（Indecipherable Token）：当模型通过捷径学会了预测后续 token 后，早期 token（如路径的第一个节点）失去了监督信号。因为这些早期 token 无法通过捷径学习，而完整的规划信息又已被 "吸收" 到捷径中，导致模型在测试时无法正确生成这些关键的起始 token。

实验表明，在简单的路径星形图上，即使训练数据达到 20 万样本，标准 teacher-forcing 训练的 Transformer 和 Mamba 模型在分布内测试（in-distribution）上的准确率仍仅为随机猜测水平（约 1/d，d 为节点度数）。

多 Token 预测：一种可能的出路

针对上述问题，研究者提出了几种训练范式改进：

Teacherless Training（无教师训练）：在训练时用无信息的占位符（如特殊 token $）替代 ground truth 前缀，强制模型仅依赖输入前缀进行多步预测。实验显示，这种方法在部分简单图结构上能够成功学习，验证了 Clever Hans 作弊确实是导致失败的关键因素。

序列反转训练：将目标序列从右到左训练，使得每个 token 的预测都变成确定性的 "回溯" 问题而非前瞻规划。在路径查找任务中，这种方法使模型达到了近乎完美的准确率，因为反向路径的每个节点都有唯一的入边。

多 Token 预测目标：Monea 等人提出的并行推测采样（PaSS）方法，在训练时同时预测多个未来 token 而非仅下一个 token。这迫使模型进行更远期的规划，减少了对单步捷径的依赖。

对 LLM 发展的启示

这些发现对当前 LLM 的发展具有深远影响：

Chain-of-Thought 的必要性：研究表明，对于需要多步推理的任务，显式的中间步骤监督（chain-of-thought）可能是必要的。没有这些中间监督，模型可能无法学会正确的推理路径。

世界模型与规划：LeCun 倡导的基于世界模型的架构（如 JEPA）试图从根本上解决规划问题，通过显式的状态预测和规划机制替代纯粹的自回归生成。

数据效率与样本质量：并非所有训练数据都是等价的。高质量的数据应当包含显式的推理步骤，而非仅仅是输入 - 输出对。这也解释了为什么在某些任务上，经过 RLHF 微调的模型表现优于基础模型 —— 人类反馈可能间接提供了缺失的中间监督信号。

结论

Next-token prediction 作为语言模型的基础范式，其局限性正在逐渐被揭示。Teacher-forcing 导致的 Clever Hans 作弊和不可解读 token 问题，揭示了自回归训练在需要前瞻规划的任务上的根本困难。多 token 预测、序列反转训练以及显式的 chain-of-thought 监督，代表了超越 next-token prediction 的可能方向。

对于工程实践而言，这意味着在构建需要复杂推理能力的 AI 系统时，应当考虑：

在训练数据中显式包含推理步骤
探索多 token 预测等替代训练目标
结合检索增强、工具使用等外部机制弥补纯自回归生成的局限

随着这些改进的逐步应用，我们或许能够构建出不仅擅长 "即兴表演"，更能进行真正规划的智能系统。

参考来源：

Bubeck, S., et al. "The Pitfalls of Next-Token Prediction." arXiv:2403.06963 (2024).
Cao, X., & Vempala, S. S. "Provable Long-Range Benefits of Next-Token Prediction." arXiv:2512.07818 (2025).

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。