Hotdry.

Article

MOSS-TTS:多说话人对话与实时流式语音合成的开源工程实现

解析MOSS-TTS家族在多说话人对话生成、环境音效合成与实时流式TTS方面的技术架构与部署参数,涵盖MossTTSDelay、MossTTSLocal与MossTTSRealtime三种架构的工程化实践。

2026-05-31ai-systems

语音合成技术正从单一音色克隆向复杂场景的多模态生成演进。MOSS-TTS Family 作为 MOSI.AI 与 OpenMOSS 团队开源的语音合成模型家族,针对高保真、高表现力和复杂真实场景的需求,构建了一套涵盖多说话人对话、语音设计、实时交互与环境音效的完整技术栈。本文聚焦其多说话人对话生成、实时流式 TTS 与环境音效合成的工程实现细节。

模型家族架构设计

MOSS-TTS 采用模块化设计,将语音合成 workflow 拆分为五个可独立使用或组合的生产级模型。每个模型针对特定场景优化,共享统一的音频表征接口 MOSS-Audio-Tokenizer。

MOSS-TTS 作为旗舰生产模型,基于 8B 参数的 MossTTSDelay 架构,支持零样本语音克隆、长文本生成、细粒度的拼音 / IPA 发音控制与 31 种语言的代码切换合成。其 v1.5 版本在 v1.0 基础上强化了多语言合成稳定性,支持通过 language 参数显式指定语言标签,并引入 [pause X.Ys] 内联标记实现精确的停顿控制。

MOSS-TTSD 专注于口语对话生成,在客观指标(说话人归因准确率 95.87%、说话人相似度 0.7949)上达到行业领先水平,主观评测中超越豆包和 Gemini 2.5-pro 等闭源模型。该模型采用延迟模式调度(delay-pattern scheduling)的多头并行 RVQ 预测机制,能够在超长对话场景中保持音色一致性与说话人分离度。

MOSS-TTS-Realtime 面向实时语音代理场景,TTFB(首字节时间)经预热后可达 180ms,结合 LLM 首句生成时间后端到端延迟约 377ms。其架构采用分层文本 - 音频输入设计,建模多轮对话中的文本上下文与用户声学特征,确保流式输出的连贯性与音色一致性。

统一音频表征:MOSS-Audio-Tokenizer

整个模型家族共享 MOSS-Audio-Tokenizer 作为离散音频接口。该分词器基于 16 亿参数的 Cat(Causal Audio Tokenizer with Transformer)架构,完全由因果 Transformer 块构成,摒弃了 CNN 结构。

技术参数方面,分词器将 24kHz 原始音频压缩至 12.5Hz 的极低帧率,采用 32 层残差向量量化(RVQ)支持 0.125kbps 至 4kbps 的可变码率。训练数据规模达 300 万小时,涵盖语音、音效与音乐。在 LibriSpeech test-clean 基准上,其在同等码率下的重建质量(SIM、STOI、PESQ)领先于其他开源音频分词器。

该分词器的纯因果 Transformer 设计专为低延迟流式推理优化,使实时生产 workflow 成为可能。

三种推理架构的工程权衡

MOSS-TTS 提供三种互补的推理架构,针对不同的部署场景进行优化:

MossTTSDelay 采用多头并行 RVQ 预测与延迟模式调度,强调长上下文稳定性与生产就绪性。8B 模型在 Seed-TTS-eval 基准上取得开源模型最优结果,英文 WER 1.84%、相似度 70.86%,中文 CER 1.37%、相似度 76.98%。该架构支持通过 llama.cpp 实现无 PyTorch 推理,8GB 显存即可运行量化后的模型。

MossTTSLocal 采用时间同步 RVQ 块与深度 Transformer,1.7B 参数规模更轻量,在客观指标上表现更优(英文相似度 73.28%、中文相似度 79.62%),适合流式导向的系统。该架构强调灵活性,便于针对特定场景进行微调。

MossTTSRealtime 并非与前两者并列的基准架构,而是面向语音代理的能力驱动设计。通过建模多轮对话中的先验文本与用户声学上下文,实现低延迟流式语音生成,在单张 L20 GPU 上 RTF(实时率)可达 0.51。

实时部署的工程参数

对于生产环境的实时部署,MOSS-TTS 提供多层次的优化方案:

SGLang 后端 支持将 MOSS-TTS 与 MOSS-Audio-Tokenizer 融合为单一模型进行推理,相比标准流程可实现约 3 倍的生成吞吐量。融合后的模型通过 sglang serve 启动,支持通过 HTTP API 进行文本到语音的端到端生成。

llama.cpp 后端 提供完全无 PyTorch 的轻量级部署路径。使用 Q4_K_M 量化的 GGUF 格式主干模型配合 ONNX Runtime 或 TensorRT 的音频分词器,可在 CPU 或低显存 GPU 上运行。配置选项包括 KV 缓存量化(q8_0、q4_0)、Flash Attention 开关以及分段加载模式(low_memory),后者可在 8GB 显存下运行 8B 模型。

MOSS-TTS-Nano 作为约 1 亿参数的轻量模型,专为 CPU 优先的实时部署设计,可在 4 核 CPU 上实现流式生成,支持 48kHz 立体声输入输出与跨语言语音克隆。

环境音效生成

MOSS-SoundEffect 模型扩展了家族能力至非语音音频生成。v2.0 版本采用 DiT(Diffusion Transformer)主干与 Flow Matching 目标函数,可生成最长 30 秒、48kHz 采样的双语音效,涵盖自然环境、城市场景、生物声音、人类动作与音乐片段。该模型同样支持通过 SGLang 后端进行高效推理。

工程实践建议

在实际部署中,建议根据场景选择合适的架构组合:

  • 长文本旁白 / 有声书:选用 MOSS-TTS(MossTTSDelay)+ SGLang 后端,利用其长上下文稳定性与显式停顿控制能力
  • 多角色对话系统:采用 MOSS-TTSD,其说话人分离与音色一致性在客观与主观评测中均表现优异
  • 实时语音助手:部署 MOSS-TTS-Realtime,配合 vLLM 等推理引擎实现端到端 400ms 以内的响应延迟
  • 边缘设备 / 低资源场景:使用 MOSS-TTS-Nano 或 llama.cpp 量化的 MOSS-TTS-GGUF,实现 CPU 实时推理

对于多语言场景,v1.5 版本建议在 API 调用中显式传入 language 参数以获得最佳合成质量。语音克隆时,参考音频长度可显著长于目标文本,v1.5 对此类场景进行了专门优化。


资料来源

  • OpenMOSS/MOSS-TTS GitHub 仓库: https://github.com/OpenMOSS/MOSS-TTS
  • MOSS-TTS Technical Report (arXiv:2603.18090)
  • MOSS-TTSD: Text to Spoken Dialogue Generation (arXiv:2603.19739)

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com