无Tokenizer TTS的声学特征离散化策略：VoxCPM的压缩重建路径与质量权衡

语音合成领域长期面临一个根本性的表征困境：离散化 token 能够确保生成稳定性，却在压缩过程中不可避免地丢失声学细节；而连续表征虽能保留信号的丰富性，却在自回归生成中面临误差累积的稳定性挑战。VoxCPM 提出的解决方案是构建一种 "半离散残差表征" 体系，通过有限标量量化（Finite Scalar Quantization, FSQ）在压缩效率与重建质量之间建立可微分的平衡机制。

分层解耦的表征架构

VoxCPM 的核心设计在于将语音生成任务解耦为两个层次：语义 - 韵律规划层与声学细节恢复层。Text-Semantic Language Model（TSLM）负责从文本输入生成高层的语义与韵律规划，这一层采用相对粗粒度的表征，重点捕捉语言内容的意图与节奏结构。与之并行的是 Residual Acoustic Model（RALM），其任务是从 TSLM 输出的语义表征中恢复细粒度的声学特征，包括音色、情感色彩、方言口音以及录音环境的细微特征。

这种分层架构的关键在于 FSQ 量化瓶颈的位置设计。FSQ 被置于两层之间，作为可微分的梯度传播通道，既对语义表征施加离散化约束以提升生成稳定性，又通过残差路径保留足够的声学信息供下游模型重建。与传统的 VQ-VAE 或 SoundStream 等语音 tokenizer 不同，VoxCPM 的 FSQ 不依赖外部预训练模块，而是与整个 TTS 系统端到端联合训练，消除了语义 - 声学表征之间的割裂问题。

有限标量量化的工程机制

FSQ 的技术优势在于其将向量量化问题转化为标量量化序列，通过将连续向量投影到有限数量的离散层级上来实现压缩。具体而言，FSQ 将每个维度独立量化为预设数量的离散值，这种分解式量化避免了传统 VQ 中码本大小随维度指数增长的困境。在 VoxCPM 的实现中，FSQ 的码本设计经过精心调优，以支持 180 万小时双语语料的训练规模。

从信号处理的角度理解，FSQ 相当于在语义空间构建了一个结构化网格，TSLM 的输出被约束在这些网格节点上，而 RALM 则学习从这些离散锚点向外插值，恢复连续的声学细节。这种 "离散锚点 + 连续残差" 的混合表征策略，使得模型在生成阶段既能利用离散 token 的稳定性优势，又能在解码阶段通过扩散模型还原高保真音频。

扩散解码器的质量保真机制

VoxCPM 的声学重建环节采用局部扩散变换器（Diffusion Transformer, DiT）作为解码器，这一选择基于扩散模型在细粒度信号生成方面的固有优势。与自回归解码器相比，扩散模型通过迭代去噪过程能够更好地保留声学纹理的细节，避免自回归链式生成中的误差累积问题。

在工程实现层面，VoxCPM 的扩散解码器针对实时性需求进行了优化。在消费级 RTX 4090 GPU 上，系统实现了 0.17 的实时因子（RTF），这意味着生成 1 秒音频仅需 0.17 秒计算时间，为流式合成应用提供了可行性。这一性能指标的达成，部分归功于 FSQ 压缩后的语义表征具有更低的序列长度，从而减少了扩散模型的迭代步数需求。

表征压缩与音质的权衡参数

VoxCPM 的设计为声学特征离散化提供了一套可操作的参数空间。首先是量化精度与码本大小的权衡：FSQ 的离散层级数直接决定了语义表征的信息容量，层级过少会导致语义信息丢失，影响内容准确性；层级过多则削弱离散化的稳定性收益。VoxCPM 通过端到端训练自动学习最优的量化配置，无需人工预设码本。

其次是残差路径的带宽分配。RALM 接收来自 TSLM 的离散语义表征后，需要恢复完整的声学细节，这一过程的信息瓶颈决定了最终音质的上限。VoxCPM 通过分层设计将这一压力分散到两个模型：TSLM 专注于高层语义，RALM 专注于声学残差，使得 0.5B 参数规模的模型仍能达到开源系统中最优的零样本语音克隆性能。

可落地的技术清单

基于 VoxCPM 的架构设计，以下是声学特征离散化策略的工程实施要点：

表征设计层面：采用 FSQ 替代传统 VQ，将向量量化分解为维度独立的标量量化，降低码本复杂度；设置分层架构分离语义规划与声学恢复，每层可采用不同的压缩率。

训练策略层面：端到端联合训练 TSLM 与 RALM，使用统一的扩散目标函数，避免分阶段训练带来的表征错位；利用大规模语料（建议百万小时级别）训练以充分学习声学残差分布。

推理优化层面：针对目标硬件（如 RTX 4090）优化扩散解码器的迭代步数，通过 FSQ 压缩降低序列长度以提升 RTF；支持流式生成模式，实现低延迟实时合成。

质量评估层面：除常规的梅尔谱失真（MCD）与词错误率（WER）外，应重点评估零样本语音克隆的说话人相似度（SIM）与情感一致性，这些指标更能反映声学细节恢复的质量。

VoxCPM 的实践证明，通过精心设计的半离散表征体系，可以在不依赖外部语音 tokenizer 的前提下，实现兼具稳定性与表现力的语音合成。这一技术路径为无 Tokenizer TTS 的发展提供了重要的工程参考。

资料来源

Zhou Y, et al. "VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning." arXiv:2509.24650, 2025.
OpenBMB. VoxCPM Demo Page. https://openbmb.github.io/VoxCPM-demopage/

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。