在大型语言模型(LLM)的演进中,效率已成为核心瓶颈。传统自回归模型逐个预测离散词元,导致生成速度缓慢且计算成本高企。连续自回归语言模型(CALM)通过引入连续参数化范式,实现了从离散到连续的转变,将多个词元压缩为单一连续向量,从而将生成步数减少 K 倍。这种工程化设计不仅提升了密度估计精度,还使训练过程更易并行化,支持流式生成加速。
连续参数化的核心在于构建高保真自编码器。该编码器将 K 个词元块映射到低维连续向量空间,例如 K=4 时使用 128 维向量。通过变分自编码器(VAE)机制,编码器输出高斯分布,确保向量空间平滑鲁棒。解码器则从向量重构原始词元,重建准确率超过 99.9%。为增强鲁棒性,引入 KL 裁剪防止分布塌缩,双重 Dropout 模拟预测噪声,提高对生成误差的容忍度。这种设计避免了离散词表的指数增长问题,使信息密度可线性扩展。
在训练层面,CALM 采用无似然框架,实现可并行自回归流训练。传统 softmax 无法处理连续空间,因此使用能量分数(Energy Score)作为损失函数。该函数通过蒙特卡洛采样估计,平衡生成多样性和准确性:第一项鼓励样本间距离,防止模式坍塌;第二项拉近预测与真值。生成头基于 Transformer 隐藏状态和随机噪声,输出单步向量预测,避免多步迭代如流匹配模型的开销。这种能量基训练类似于 normalizing flow 的密度估计,但单步并行化更高效,支持大批次梯度更新。
证据显示,这种连续参数化显著改善性能-计算权衡。实验中,1.82B 参数的 CALM 模型在 WikiText-103 上 BrierLM 分数匹敌同规模 Transformer,但训练计算量减少 44%,推理减少 34%。密度估计提升源于连续空间的平滑梯度流动,减少了离散跳跃引起的局部最小值陷阱。生成速度方面,以 K=4 为例,序列长度减半,整体吞吐量提升 3-4 倍,尤其在长文本生成中体现优势。
工程落地需关注关键参数配置。首先,选择 K 值:K=2 适合初步实验,计算节省 50%;K=4 为平衡点,性能衰减最小;K=8 需更大模型支持。其次,向量维度 d=128 提供足够容量,结合 VAE 后验方差 σ≈0.3 确保噪声鲁棒。训练时,学习率 3e-4,warmup 2000 步,Adam β1=0.9, β2=0.95,梯度裁剪 1.0。批次大小 per_device=4,累积步数 4,支持 8 GPU 并行。生成头 MLP 层数 4,隐藏维 1024。
监控要点包括:重建准确率 >99.9%,能量损失收敛至稳定值;BrierLM 与困惑度相关系数 >0.95,作为评估代理。风险控制:若向量脆弱,增加 Dropout 率 0.1-0.2;并行训练中,同步 BN 层避免批次偏差。回滚策略:若性能下滑,降 K 至 2 并微调自编码器。
实施清单:
- 预训练自编码器:15B 词元数据,1 epoch,步数 30000,保存检查点。
- CALM 训练:剩余数据,能量损失,评估步 1000,目标 BrierLM ≈5.72。
- 生成测试:温度采样 0.7-1.0,噪声采样 100 次,检查多样性。
- 部署优化:KV 缓存适配向量序列,推理引擎如 vLLM 扩展支持。
最后,引用资料来源:arXiv:2510.27688《Continuous Autoregressive Language Models》;GitHub: shaochenze/calm。