在大型语言模型(LLM)的演进中,自回归生成机制一直是核心,但其逐 token 预测的顺序性导致了计算瓶颈。CALM(Continuous Autoregressive Language Models)提出了一种创新范式,通过连续参数化将多个 token 打包为一个连续向量,实现生成步数的指数级减少,从而使 autoregressive 训练高度并行化。这种方法不仅提升了效率,还开辟了 LLM 扩展的新维度,超越了离散 token 的固有限制。
连续参数化的核心在于构建一个高保真自编码器(Autoencoder),它将 K 个离散 token 压缩为一个低维连续向量,并能以超过 99.9% 的准确率重构原始 token。这种参数化允许模型在连续域中进行 autoregressive 预测:Transformer 骨干网络基于上下文生成下一个向量表示,随后通过解码器还原为 token 序列。相较传统离散模型,CALM 将生成步数减少至原有的 1/K,例如 K=4 时,仅需 1 步即可生成 4 个 token 的语义内容。这使得训练过程可以并行处理更大块的序列,显著降低序列长度带来的计算开销。
证据显示,这种连续参数化在实践中高效可行。在 WikiText-103 数据集上的实验中,采用 K=4 的 CALM-M(371M 参数)模型,其训练 FLOPs 仅为传统 Transformer-S 的 56%,推理 FLOPs 减少 34%,而性能仅轻微下降。随着参数规模增大,如 CALM-XL(1.82B 参数),其 BrierLM 分数甚至超越基线,证明连续参数化在保持语义质量的同时优化了性能-计算权衡。关键在于自编码器的鲁棒设计:使用变分自编码器(VAE)结构学习高斯分布映射,结合 Dropout 在向量空间引入冗余,确保模型能承受预测噪声(标准差 σ≈0.3),避免微小误差放大为生成崩溃。
要落地实现连续参数化,首先需训练自编码器。使用 Llama3 分词器,配置 latent_size=128、num_encoder_layers=2、num_decoder_layers=2、patch_size=4(对应 K=4)。训练数据如 Pile-Uncopyrighted(约 15B token),采用交叉熵损失,学习率 lr=3e-4,Adam 优化器(β1=0.9, β2=0.95),梯度裁剪 max_grad_norm=1.0,warmup_steps=1000,batch_size=8(per_device),gradient_accumulation_steps=4,epochs=1,max_steps=30000。评估时,确保重建准确率 >99.9%,并测试噪声鲁棒性:添加高斯噪声后,重构率应维持在 99% 以上。保存检查点至 checkpoints/autoencoder。
接下来,训练 CALM 核心模型。冻结自编码器,输入为编码后的向量序列,Transformer 配置 hidden_size=1024、intermediate_size=2752、num_hidden_layers=16、num_attention_heads=16。生成头采用 Energy Transformer,使用能量分数损失(Energy Score):E(y, P) = E[||y - z||^2] - E[||y - z'||^2],其中 z, z' 为从条件分布 P 采样的样本。通过蒙特卡洛采样(M=16)估计损失,支持多样性与准确性平衡。训练参数:lr=3e-4(或更低以稳定)、warmup_steps=2000、block_size=8192、per_device_train_batch_size=4、gradient_accumulation_steps=8、max_steps=根据数据集调整。验证集使用 WikiText,目标 BrierLM 分数 ≈5.72(越低越好,表示更好校准)。为并行化,启用 streaming 数据加载和 bf16 混合精度,推荐 8x GPU(如 A100)分布式训练(torchrun --nproc_per_node 8)。
在推理阶段,连续参数化进一步凸显并行优势。生成流程:从提示 token 编码为初始向量,Transformer 预测下一个向量(注入噪声以控制多样性),解码为 token,重复直到 EOS。温度采样通过调整噪声标准差实现:低温度(σ=0.1)产生确定性输出,高温度(σ=0.5)增强创造性,而无需 softmax。相比离散模型,CALM 的单步生成 K token 减少了 KV 缓存开销,支持更长上下文。实际部署中,监控关键指标:1)重建准确率(>99.9%);2)BrierLM 分数(目标 <6.0);3)生成延迟(K=4 下,34% 减少);4)噪声鲁棒性(σ 阈值 0.3)。若性能下降,检查 K 值:K=2 适合小模型,K=8 需更大参数规模以避免语义丢失。
潜在风险包括大 K 值下的模式崩溃,可通过增加采样数 M 或联合微调自编码器缓解。回滚策略:若连续域不稳定,fallback 到 K=1(退化为离散)。总体而言,CALM 的连续参数化为 LLM 提供了可扩展路径,支持万亿级模型的并行训练,推动 AI 系统向超高效方向演进。
资料来源:arXiv:2510.27688《Continuous Autoregressive Language Models》;GitHub: shaochenze/calm(包含训练脚本)。
(字数:1028)