在传统语音合成系统中,将文本转换为语音通常需要经历一个离散化过程:首先将音频信号编码为一系列离散 token(如基于音频编解码器的声学 token 或 phoneme token),然后语言模型在这些离散表示上进行建模,最后通过声码器将离散 token 还原为连续波形。这种 Tokenizer-Decoder 范式虽然简化了建模难度,但也在语音保真度、韵律连续性和零样本克隆能力之间引入了难以调和的权衡。VoxCPM2 作为 OpenBMB 团队发布的最新 TTS 模型,首次在生产级系统中实现了真正的 Tokenizer-Free 架构,直接在连续潜在空间中完成从文本到语音的端到端生成。

为什么需要 Tokenizer-Free 架构

传统 TTS 系统的离散 token 化方案存在几个根本性的技术瓶颈。首先,声学 token 的码本大小限制了表示能力 —— 即使是最先进的音频编解码器(如 DAC、EnCodec)也需要在压缩率和重建质量之间做出选择,当码本无法完美覆盖语音信号的细微变化时,最终合成的音频会出现可感知的伪影。其次,离散 token 之间的边界引入了韵律不连续问题,尤其是跨语言合成时,不同语言的音素系统差异导致 token 序列难以保持自然的语调和停顿。此外,在零样本克隆场景中,离散表示对说话人身份的建模能力受限,克隆相似度往往难以达到生产级别要求。

VoxCPM2 的设计理念是绕过离散化步骤,让语言模型直接在与音频信号同构的连续空间中工作。这种方式的核心优势在于:模型能够访问完整的信号精度,无需为了适配码本而引入量化误差;韵律信息可以以连续值形式在整个生成过程中保留,不受离散边界的切割;说话人特征的建模也更加精细,因为潜在空间的维度不受码本大小的约束。

AudioVAE V2 潜在空间与四阶段管线

VoxCPM2 的技术基础是 AudioVAE V2,这是一个非对称编码器 - 解码器结构的变分自编码器。与传统自编码器不同,AudioVAE V2 的设计目标不是重建输入音频本身,而是为 TTS 系统提供一个最适合语言模型建模的连续表示空间。在 VoxCPM2 中,这个潜在空间直接作为语言模型的输出目标,语言模型生成的向量直接解码为 48kHz 的高保真音频,省去了传统流程中的声码器步骤。

整个生成管线由四个核心阶段组成,按顺序执行。首先是 LocEnc(位置编码器),负责将输入文本的字符序列转换为带有位置信息的向量表示,同时融入说话人、语速、情感等控制条件。其次是 TSLM(文本到潜在语言模型),这是整个系统的核心组件,一个 2B 参数的大语言模型在潜在空间中自回归地生成文本对应的语音潜在序列。第三阶段是 RALM(潜在声学建模),对 TSLM 输出的粗粒度潜在表示进行细粒度增强,处理韵律细节和音频质量的精细调控。最后是 LocDiT(潜在扩散 transformer),基于流匹配(Flow Matching)技术将潜在表示转换为最终的音频波形。

值得注意的是,TSLM 和 LocDiT 的组合继承自 DiTAR(Diffusion Autoregressive)架构的思想,但 VoxCPM2 将其扩展到了 2B 参数规模,并针对多语言和零样本克隆任务进行了专门的预训练。这种自回归加扩散的混合架构既保留了语言模型对长文本序列的建模能力,又借助扩散模型实现了高质量的音频波形生成。

关键技术参数与工程实践

从工程落地的角度,有几个关键参数值得关注。推理时间步数(inference_timesteps) 是控制生成质量与速度权衡的核心变量,官方默认值为 10,在 RTX 4090 上可实现约 0.30 的实时因子(RTF),如果使用 Nano-VLLM 加速版本可进一步降至 0.13。cfg_value 参数控制无分类器引导(CFG)的强度,官方默认值为 2.0,较高的 CFG 值可以提升生成音频的稳定性和一致性,但过高可能导致韵律显得机械。

在显存占用方面,VoxCPM2 完整加载需要约 8GB VRAM,这使得单卡 RTX 4090 或 A100 即可满足推理需求。相比之下,上一版本 VoxCPM1.5 只需约 6GB,而更轻量的 VoxCPM-0.5B 则控制在 5GB 左右。模型支持两种微调策略:完整的 SFT(监督微调)和参数高效的 LoRA 微调,后者仅需 5 到 10 分钟的音频数据即可实现对特定说话人、语种或领域风格的适配。

对于需要流式输出的应用场景,VoxCPM2 提供了 generate_streaming 接口,可以将生成的音频 chunk 按需返回,实现低延迟的实时语音合成。这对于交互式语音助手、实时翻译等需要边说边播的应用尤为重要。

与传统架构的本质差异

理解 VoxCPM2 的创新需要将其与现有主流 TTS 方案进行对比。以 F5-TTS 和 MaskGCT 为代表的离散 token 方案需要在编码器侧将音频离散化,这一步骤不可避免地引入信息损失。CosyVoice 系列虽然采用了更精细的 token 设计,但在克隆相似度上仍受限于离散表示的精度。VoxCPM2 的潜在空间方法在 Seed-TTS-eval 基准测试中取得了 75.3% 的英文相似度和 79.5% 的中文相似度,在 CV3-eval 多语言基准上的表现也位居开源模型前列。

从技术演进的角度看,VoxCPM2 的成功验证了 Tokenizer-Free 路径在生产级 TTS 系统中的可行性。2B 参数的模型规模、200 万小时的多语言训练数据、以及 48kHz 的输出采样率,这些数字背后是扎实的数据工程和系统优化工作。对于希望构建高质量语音合成能力的团队而言,理解这一架构的设计原则比简单调用 API 更为重要,因为这决定了后续在特定场景下的优化方向。


参考资料