在大语言模型(LLM)发展的浪潮中,一个根本性的瓶颈正逐渐显现 —— 高质量自然语言数据即将在 2028 年耗尽。传统预训练范式依赖海量互联网文本,但这些数据不仅存在偏见问题,更包含大量语义噪声,使得模型难以专注于学习真正的推理能力。MIT CSAIL 的研究团队提出了一种激进且优雅的解决方案:使用神经细胞自动机(Neural Cellular Automata,NCA)生成的合成数据替代自然语言进行预训练,在保持推理能力的同时规避数据枯竭与语义捷径问题。
神经细胞自动机的基本原理
神经细胞自动机是 Conway「生命游戏」等经典元胞自动机的神经网络推广。在传统元胞自动机中,每个格点的状态转换遵循预定义的确定性规则;而在 NCA 中,这一规则被替换为可学习的神经网络。这意味着每一次随机采样都定义了一个独特的转换函数,在网格上产生丰富多样的时空动力学研究表明,这些动态行为涵盖了从简单模式收敛到固定吸引子状态、到随时间逐渐涌现的复杂结构的广泛频谱。当这些轨迹在长时域上展开时,它们实际上编码了远超任何自然语言序列的结构化信息密度。
NCA 轨迹通过 2×2 patches 的方式 token 化(类似于视觉 Transformer 的处理方式),随后以下一个 token 预测的目标馈入标准 Transformer 架构。关键洞察在于:由于每个序列都源自一个独特的潜在规则网络,模型必须从上下文中推断该规则才能准确预测后续状态。这种强制性的上下文推理能力,恰恰构成了语言模型许多关键推理能力的基础。
三阶段训练框架的工程实现
该方案采用三阶段流水线架构。第一阶段为「预预训练」(Pre-pre-training),使用约 1.64 亿个 NCA token 的合成动态数据进行训练;第二阶段为标准预训练,使用 40 亿至 130 亿 token 的自然语言数据(涵盖网页、数学、代码等域);第三阶段为指令微调,使用任务特定数据。这一设计的核心理念是让模型首先在纯结构化环境中建立通用的推理机制,随后再注入语义知识。
在工程实现层面,研究团队的关键参数选择值得注意:NCA 生成采用 gzip 压缩比控制复杂度 —— 压缩率越高代表动态越简单。这一参数成为调控合成数据难度的重要杠杆,使得训练数据复杂度可以根据目标域特性进行精细调优。
性能评估与核心数据
实验在匹配 token 预算(各 1.64 亿 token)的条件下进行,NCA 预预训练在所有评估维度上持续超越从零训练、自然语言预预训练(C4)及其他合成数据(Dyck)基线。具体而言,在 OpenWebText 数据集上实现 -5.7% 的困惑度下降,在 OpenWebMath 上实现 -5.2% 下降,在 CodeParrot 上实现 -4.2% 下降。收敛速度提升幅度达到 1.4× 至 1.6×。
更令人惊讶的发现是,即使给予 C4 数据约 10 倍的优势(16 亿 token 对比 1.64 亿 token),NCA 仍能以 1.4× 的速度更快收敛,并保持 5% 的最终困惑度优势。这表明每 token 的信息价值存在本质差异:在远低于计算最优规模的 token 数量下,C4 主要教授浅层局部模式,而 NCA 则强制模型从上下文推断潜在规则并一致地应用 —— 这种 per-token 的功能多样性而非冗余语言模式,更高效地构建了迁移到语言任务的通用表示。
可迁移计算原语的层次分析
消融实验揭示了预训练过程中不同模块的角色分工。重新初始化实验表明,注意力层承载了最多可迁移的计算原初能力,而 MLP 主要编码域特定知识 —— 仅当源域与目标域对齐时才具备可迁移性。这一发现与先验研究相呼应:上下文学习能力源于归纳头(induction heads)的形成 —— 即那些从序列早期复制并应用模式的注意力电路。NCA 预预训练专属地奖励这种行为,可能诱导这些电路更早且更稳健地形成,然后才进入语言训练阶段。
复杂度匹配的领域特异性
不同目标域对 NCA 复杂度的最优需求呈现显著差异。代码任务受益于更简单的动态,而数学和网页文本则偏好更复杂的动力学模式。这一发现为有针对性的训练数据工程开辟了新维度:可以为代码任务配置低压缩比(高复杂度)的 NCA,为基因组序列建模配置更丰富的长程动态。这意味着训练分布不再是固定的,而是可以针对目标域进行结构化调优的变量。
工程实践要点
对于希望复现或延伸这一工作的团队,以下参数值得关注。在 token 预算配置方面,研究团队建议 NCA 预预训练阶段使用约 1.64 亿 token 即可产生显著效果,盲目扩大合成数据规模未必带来线性收益。在复杂度选择方面,应根据目标域特性进行网格搜索:代码任务优先选择高压缩比(简单动态),数学与文本任务选择低压缩比(复杂动态)。在模块初始化方面,注意力层的预训练权重比 MLP 更具迁移价值,必要时可采用差异化的学习率策略。
这一工作的长期愿景是构建「从完全合成数据获取推理能力,然后从小型精选自然语言语料库学习语义」的 foundation model。这不仅有望缓解数据枯竭问题,更能从源头上规避训练数据中固有的偏见,使模型推理不带有任何人類偏见的继承痕迹。当前的实验证据已经清晰表明:合成预训练不再是一个「是否可行」的问题,而是「能走多远」的探索起点。
资料来源:本文核心事实与数据来自 MIT CSAIL 研究团队 Seungwook Han、Dan Lee、Akarsh Kumar、Pulkit Agrawal 合著的论文《Training Language Models via Neural Cellular Automata》(ICML 2026 审稿中),原始研究与实验细节发表于 https://hanseungwook.github.io/blog/nca-pre-pre-training/。