在语音合成领域,传统 TTS 系统通常依赖离散 token 作为中间表示 —— 先将音频编码为音素或声学 token,再通过语言模型预测这些离散符号。然而,VoxCPM 系列模型从一开始就走了一条截然不同的路:直接建模连续语音表征,绕过离散 tokenization 阶段。2026 年 4 月发布的 VoxCPM2 将这一理念推向了新的高度:2B 参数、30 种语言、48kHz 输出,以及三种差异显著的语音克隆模式。本文将从工程视角出发,拆解其 tokenizer-free 架构的核心设计,并给出不同应用场景下的参数选型建议。

一、为什么需要 Tokenizer-Free

主流 TTS 方案通常遵循「文本→音素→声学 token→波形」的两阶段或多阶段路线。音素层面的建模优势在于明确性强、训练数据需求相对较低,但代价同样明显:离散化过程会丢失细粒度的韵律信息 —— 重音、停顿、呼吸声等表达性细节往往在量化过程中被抹平。VoxCPM2 的核心主张是:与其在离散化之后修补丢失的信息,不如从一开始就在连续潜空间中进行建模。

这种设计选择直接影响了模型的训练管道和推理效率。VoxCPM2 不需要独立的音素对齐器或预训练的声学 tokenizer,而是通过四阶段流水线在连续 latent 空间中完成从文本到波形的端到端映射。这一架构取舍带来的最直接收益是韵律自然度和多语言一致性的提升 —— 因为模型从第一天起就学习的是「文本→连续音频表征」的直接映射,而非「文本→离散 token」的映射。

二、四阶段生成流水线:从文本到 48kHz 波形的完整路径

VoxCPM2 的整个生成过程可以概括为四个顺序执行的阶段,每个阶段承担明确的职责,最终通过 AudioVAE V2 解码器输出波形。

第一阶段是 Local Encoder(LocEnc)。输入的参考音频被切分为若干连续帧组成的 patch,每个 patch 被编码为一个紧凑的局部表征。这个 patch 级别的处理将原始音频的有效序列长度大幅缩短 —— 对于 48kHz 采样率的音频,直接建模每 sample 需要处理 48000 个时间步,而 patch 化后骤降至约 6.25Hz 的 token 率。这意味着后续语言模型面对的序列长度是可管理的。

第二阶段是 Text-Semantic LM(TSLM)。基于 MiniCPM-4 骨干网络构建的因果语言模型接收两类输入:文本 token 和来自 LocEnc 的音频嵌入。它的核心任务是完成「说什么」的高层规划 —— 从文本内容中推断出恰当的韵律、语速、强调和情感走向。这是整个流水线中最接近传统语言模型的部分,但其输出并非离散符号,而是连续的高层语义表征。

第三阶段是 Residual Acoustic LM(RALM)。这一阶段的作用是弥合高层语义规划与底层声学渲染之间的语义鸿沟。在 VoxCPM 1.x 中,语义表征与声学特征通过逐元素相加(additive fusion)进行融合。VoxCPM 2 将其升级为拼接后投影(concat + projection)的方式,赋予模型更大的自由度来决定语义意图与声学证据如何交互,从而支持更丰富的声学细节和更强的表达能力。

第四阶段是 Local DiT(LocDiT),即条件流匹配(Conditional Flow Matching,CFM)扩散变换器。它以上一阶段的输出为条件,在每个 autoregressive step 中生成高质量的连续音频 latent。与传统的扩散模型不同,CFM 通过学习从噪声到目标的流动路径来实现更快的采样收敛。VoxCPM2 默认使用 10 个推理步来完成这一过程,在质量和速度之间取得平衡。

最终生成的连续 latent 由 AudioVAE V2 解码为 48kHz 波形。值得注意的是,AudioVAE V2 采用非对称设计:编码端在 16kHz 条件下工作以保持 LM 侧的效率,解码端则以 48kHz 输出高质量音频。这一设计避免了为追求高采样率而线性增加序列长度的困境,是 VoxCPM2 能够在 RTX 4090 上实现约 0.3 RTF(实时因子)的关键工程优化之一。

三、字节级与音素 - Free:训练范式的本质差异

VoxCPM2 宣称的「tokenizer-free」与传统的「音素 - Free」训练 pipeline 并非同一概念,但二者在工程上产生了相似的效果:模型不依赖预定义的音素表或离散声学码本。

从训练数据角度看,VoxCPM2 直接使用原始音频与对应文本进行配对训练,无需额外的音素对齐步骤。传统 TTS 系统的 pipeline 往往需要 Montreal Forced Aligner(MFA)等工具来建立文本与音频的强制对齐,这一过程不仅增加了预处理复杂度,还可能因为对齐错误而引入噪声。VoxCPM2 通过端到端的连续建模绕过了这一步骤 —— 语言模型在训练阶段自行学习文本与声学表征之间的对应关系。

从建模粒度角度看,VoxCPM2 的 patch 机制本质上是一种「字节级」声学建模。每个 patch 包含若干连续时间步的原始音频信息,其大小经过精心设计以平衡建模能力与计算效率。在 48kHz 采样率下,一个 patch 对应约 160ms 的音频上下文,这一窗口足以捕获音素级别的声学特征,同时避免了单样本建模的高昂代价。

这种训练范式的一个实际影响是:VoxCPM2 在面对训练数据中未曾出现的罕见语言或口音时,具有更强的零样本泛化能力。因为模型学习的是「文本到声学表征」的通用映射,而非针对特定音素集合的映射。这一特性在其 30 种语言支持列表中得到了验证 —— 包括阿拉伯语、缅甸语、高棉语、老挝语等在 TTS 领域数据相对稀缺的语种。

四、三种克隆模式的延迟与质量权衡

VoxCPM2 提供了三种差异显著的语音克隆模式,每种模式在克隆相似度、推理延迟和使用门槛上各有取舍。

第一种是 Controllable Voice Cloning(可控语音克隆)。用户只需提供一段参考音频(无需对应文本),模型即可提取音色特征并克隆。该模式的延迟最低 —— 因为只需一次参考音频的编码过程,无需额外文本处理。从架构角度看,这是因为 VoxCPM2 引入了结构上独立的参考音频通道,将音色信息与文本语义解耦。然而,由于缺乏参考音频的转写文本,模型需要在「保留什么」的决策上进行一定程度的猜测。

第二种是 Ultimate Cloning(终极克隆)。用户同时提供参考音频和对应的转写文本。这种模式利用音频续接(continuation)机制,让模型在已知参考内容的基础上继续生成。代价是推理延迟增加:因为需要先处理 prompt 文本并进行跨模态对齐。但收益是克隆相似度显著提升 —— 在 Seed-TTS-eval 基准测试中,VoxCPM2 在 hard 难度集上取得了 WER 8.13%、SIM 75.3% 的成绩,展示了在极端场景下的鲁棒性。

第三种是 Voice Design(声音设计)。这是 VoxCPM2 独有的特性 —— 完全不依赖任何参考音频,仅通过自然语言描述(性别、年龄、语调、情感、语速等)即可创造全新嗓音。其本质是将文本描述作为额外的条件信号注入生成流程。在 InstructTTSEval 基准上,VoxCPM2 在英文测试集上取得了 APS 84.2%、DSD 83.2%、RP 71.4% 的成绩,超过了同参数量级的 Qwen3-TTS。

从部署角度看,这三种模式对推理延迟的影响可以量化:在 RTX 4090 上,基础 TTS 的 RTF 约为 0.3,启用 Voice Design 或 Controllable Cloning 会额外增加约 10%–15% 的延迟,而 Ultimate Cloning 由于需要处理双模态输入,延迟增幅可达 20%–30%。如果对延迟极端敏感,官方推荐使用 Nano-vLLM 推理引擎进行加速 —— 该引擎在相同硬件上可将 RTF 降至约 0.13。

五、工程落地的关键参数

在实际部署中,以下参数直接影响生成质量与系统吞吐。

inference_timesteps 控制 CFM 扩散过程的推理步数,默认值为 10。步数越高,生成质量越好,但 RTF 线性增长。对于流式场景或实时性要求高的交互式应用,可降至 6–8 步;对质量要求极高的离线合成场景,可提升至 15–20 步。

cfg_value 控制分类器无关引导(CFG)强度,默认 2.0。较高的 CFG 值会增加生成确定性,但对某些创意性场景(如 Voice Design)可能导致音色过于保守。建议在 1.5–3.0 范围内调优。

sample_rate 方面,VoxCPM2 直接输出 48kHz,无需外接超分辨率模型。参考音频接受 16kHz 输入,系统内部会自动完成上采样。

load_denoiser 参数在 from_pretrained 调用中控制是否加载去噪模块。对于大多数场景,设置为 False 即可满足需求;仅当生成背景噪声明显时考虑启用。

六、总结

VoxCPM2 通过 tokenizer-free 的连续潜空间建模,重新定义了多语言 TTS 的工程边界。四阶段流水线(LocEnc → TTSLM → RALM → LocDiT)将高层语义规划与低层声学渲染分离,辅以 AudioVAE V2 的非对称编解码设计,实现了 48kHz 高保真输出与约 0.3 RTF 的兼得。30 种语言的支持、Voice Design 与三种克隆模式的存在,使得模型能够灵活适配从低延迟交互到高质量离线合成的全场景谱系。

对于希望快速验证的开发者,建议从 HuggingFace Hub 上的预置权重或 ModelScope 国内镜像开始,使用官方 Quick Start 代码在 10 分钟内完成首个 demo 的生成。对于有微调需求的场景,官方文档提供了完整的 LoRA 与全参数微调 pipeline,最少仅需 5–10 分钟的领域音频即可完成 adaptation。


参考资料