大型语言模型(LLM)的自回归生成过程依赖逐个 token 的预测,这种顺序式机制虽然有效,但导致了显著的计算瓶颈,尤其在实时流式推理场景中,延迟成为主要挑战。连续自回归语言模型(CALM)提出了一种范式转变:从离散 token 预测转向连续向量预测,通过将 K 个 token 压缩为单个连续向量,减少生成步骤的数量,从而实现更低的延迟和更高的效率。这种方法的核心在于提升每个生成步骤的语义带宽,使模型能够并行处理更多信息,而非局限于低信息量的单个 token。
CALM 的实现首先依赖一个高效的自编码器,用于将 token 序列映射到连续向量空间。该自编码器采用变分框架,确保向量表示的鲁棒性和高保真度。具体而言,编码器将 K 个 token 的嵌入通过位置无关的前馈网络处理,然后线性压缩为低维向量;解码器则逆向操作,通过 softmax 重构原始 token。训练时,使用交叉熵损失结合 KL 散度正则化,KL 权重 β=0.001,以平滑潜在流形并防止后验崩溃。同时,引入 KL 裁剪(阈值 λ_KL=0.5)和双重 dropout(输入 token 和潜在向量均为 p=0.15),增强表示的冗余性和上下文推断能力。实验显示,对于 K=4,潜在维度 l=128 时,重构准确率超过 99.9%,标准差 σ_i 约 0.3,确保生成噪声下的稳定性。
在无似然语言建模方面,CALM 采用 Energy Transformer 作为生成头,避免了扩散或流匹配的迭代采样瓶颈。Transformer 主干基于 LLaMA 架构,输出隐藏状态 h_{i-1} 条件化生成头,该头由 L 个残差 MLP 块组成(L 为 Transformer 层数的 1/4),每个块融合噪声 ε ~ U[-0.5, 0.5] 和隐藏状态,通过 SwiGLU 激活实现单步向量生成。训练目标为能量损失:使用 N=8 个模型样本和 M=100 个目标后验样本,计算 L1 距离(α=1),公式为 L_energy = (2/NM) Σ ||z_{i,m} - \tilde{z}{i,n}|| - 1/(N(N-1)) Σ ||\tilde{z}{i,n} - \tilde{z}_{i,k}||。这种损失基于严格适当评分规则,确保模型分布匹配数据分布,而无需显式似然计算。
为了评估无似然模型,引入 BrierLM 指标,基于 Brier 分数:Brier(P, y) = 2P(y) - Σ P(x)^2,其蒙特卡洛估计器为 I{x1=y} + I{x2=y} - I{x1=x2}。BrierLM 为 1-4 阶 n-gram 的几何均值,乘以 100,与 perplexity 相关系数达 -0.966。该指标适用于隐式模型,如扩散 LM,且在教师强制设置下评估整个 chunk,确保全面覆盖生成质量。
在输入设计上,CALM 优先使用离散输入:前一步向量通过冻结解码器重构为 K 个 token,再经嵌入和压缩 MLP(两层,隐藏维 512)输入 Transformer,避免连续输入的语义解包难题。这种反馈循环确保自回归过程在离散空间的稳定性,同时保持连续预测的优势。
对于实时流式推理,CALM 通过减少步骤数(因子 K)天然降低延迟,但需优化前缀计算以支持并行。建议使用 KV 缓存结合并行前缀求和(parallel prefix sum)算法,如 Hillis-Steele 或 Blelloch 扫描,实现 O(log L) 时间复杂度下的向量序列累积,其中 L=T/K 为向量长度。该方法在 GPU 上高效,尤其当 K=4 时,序列缩短 75%,延迟可降至传统 AR 的 25%。监控要点包括:重构准确率 >99.5%、能量损失收敛 <0.1、采样方差 σ<0.5;回滚策略若 BrierLM 下降 >5%,则降 K 或增加 N。
落地参数清单:
- 自编码器:K=2~8,l=32K,隐藏维 d=512,层数 2,β=0.001,λ_KL=0.5,dropout p=0.15。
- 生成头:块数 L=3~4,内部维 d,噪声 U[-0.5,0.5],α=1,N=8,M=100。
- 模型:上下文 2048 步(token 数 2048K),学习率 3e-4,warmup 2000 步,批次 2M token。
- 采样:温度 T=0.8
1.0,批次 N=100500(低 T 时增大),fallback 从 n 降至 1。
- 部署:KV 缓存 + 并行前缀,阈值:延迟 <50ms/step,准确率 >95%。
实验验证:在 Pile 数据集上,CALM-L (K=4, 371M 参数) 的 BrierLM 达 45.2,较基线 Transformer-S (281M) 相当,但训练 FLOPs 减 44%,推理减 34%。[1] 这种优化使 CALM 适用于实时应用,如聊天机器人或翻译系统,支持流式输出而无显著质量损失。
来源:
[1] Shao et al., Continuous Autoregressive Language Models, arXiv:2510.27688, 2025.
代码:https://github.com/shaochenze/calm