MOSS-TTS：多说话人对话与实时流式语音合成的开源工程实现

语音合成技术正从单一音色克隆向复杂场景的多模态生成演进。MOSS-TTS Family 作为 MOSI.AI 与 OpenMOSS 团队开源的语音合成模型家族，针对高保真、高表现力和复杂真实场景的需求，构建了一套涵盖多说话人对话、语音设计、实时交互与环境音效的完整技术栈。本文聚焦其多说话人对话生成、实时流式 TTS 与环境音效合成的工程实现细节。

模型家族架构设计

MOSS-TTS 采用模块化设计，将语音合成 workflow 拆分为五个可独立使用或组合的生产级模型。每个模型针对特定场景优化，共享统一的音频表征接口 MOSS-Audio-Tokenizer。

MOSS-TTS 作为旗舰生产模型，基于 8B 参数的 MossTTSDelay 架构，支持零样本语音克隆、长文本生成、细粒度的拼音 / IPA 发音控制与 31 种语言的代码切换合成。其 v1.5 版本在 v1.0 基础上强化了多语言合成稳定性，支持通过 language 参数显式指定语言标签，并引入 [pause X.Ys] 内联标记实现精确的停顿控制。

MOSS-TTSD 专注于口语对话生成，在客观指标（说话人归因准确率 95.87%、说话人相似度 0.7949）上达到行业领先水平，主观评测中超越豆包和 Gemini 2.5-pro 等闭源模型。该模型采用延迟模式调度（delay-pattern scheduling）的多头并行 RVQ 预测机制，能够在超长对话场景中保持音色一致性与说话人分离度。

MOSS-TTS-Realtime 面向实时语音代理场景，TTFB（首字节时间）经预热后可达 180ms，结合 LLM 首句生成时间后端到端延迟约 377ms。其架构采用分层文本 - 音频输入设计，建模多轮对话中的文本上下文与用户声学特征，确保流式输出的连贯性与音色一致性。

统一音频表征：MOSS-Audio-Tokenizer

整个模型家族共享 MOSS-Audio-Tokenizer 作为离散音频接口。该分词器基于 16 亿参数的 Cat（Causal Audio Tokenizer with Transformer）架构，完全由因果 Transformer 块构成，摒弃了 CNN 结构。

技术参数方面，分词器将 24kHz 原始音频压缩至 12.5Hz 的极低帧率，采用 32 层残差向量量化（RVQ）支持 0.125kbps 至 4kbps 的可变码率。训练数据规模达 300 万小时，涵盖语音、音效与音乐。在 LibriSpeech test-clean 基准上，其在同等码率下的重建质量（SIM、STOI、PESQ）领先于其他开源音频分词器。

该分词器的纯因果 Transformer 设计专为低延迟流式推理优化，使实时生产 workflow 成为可能。

三种推理架构的工程权衡

MOSS-TTS 提供三种互补的推理架构，针对不同的部署场景进行优化：

MossTTSDelay 采用多头并行 RVQ 预测与延迟模式调度，强调长上下文稳定性与生产就绪性。8B 模型在 Seed-TTS-eval 基准上取得开源模型最优结果，英文 WER 1.84%、相似度 70.86%，中文 CER 1.37%、相似度 76.98%。该架构支持通过 llama.cpp 实现无 PyTorch 推理，8GB 显存即可运行量化后的模型。

MossTTSLocal 采用时间同步 RVQ 块与深度 Transformer，1.7B 参数规模更轻量，在客观指标上表现更优（英文相似度 73.28%、中文相似度 79.62%），适合流式导向的系统。该架构强调灵活性，便于针对特定场景进行微调。

MossTTSRealtime 并非与前两者并列的基准架构，而是面向语音代理的能力驱动设计。通过建模多轮对话中的先验文本与用户声学上下文，实现低延迟流式语音生成，在单张 L20 GPU 上 RTF（实时率）可达 0.51。

实时部署的工程参数

对于生产环境的实时部署，MOSS-TTS 提供多层次的优化方案：

SGLang 后端 支持将 MOSS-TTS 与 MOSS-Audio-Tokenizer 融合为单一模型进行推理，相比标准流程可实现约 3 倍的生成吞吐量。融合后的模型通过 sglang serve 启动，支持通过 HTTP API 进行文本到语音的端到端生成。

llama.cpp 后端 提供完全无 PyTorch 的轻量级部署路径。使用 Q4_K_M 量化的 GGUF 格式主干模型配合 ONNX Runtime 或 TensorRT 的音频分词器，可在 CPU 或低显存 GPU 上运行。配置选项包括 KV 缓存量化（q8_0、q4_0）、Flash Attention 开关以及分段加载模式（low_memory），后者可在 8GB 显存下运行 8B 模型。

MOSS-TTS-Nano 作为约 1 亿参数的轻量模型，专为 CPU 优先的实时部署设计，可在 4 核 CPU 上实现流式生成，支持 48kHz 立体声输入输出与跨语言语音克隆。

环境音效生成

MOSS-SoundEffect 模型扩展了家族能力至非语音音频生成。v2.0 版本采用 DiT（Diffusion Transformer）主干与 Flow Matching 目标函数，可生成最长 30 秒、48kHz 采样的双语音效，涵盖自然环境、城市场景、生物声音、人类动作与音乐片段。该模型同样支持通过 SGLang 后端进行高效推理。

工程实践建议

在实际部署中，建议根据场景选择合适的架构组合：

长文本旁白 / 有声书：选用 MOSS-TTS（MossTTSDelay）+ SGLang 后端，利用其长上下文稳定性与显式停顿控制能力
多角色对话系统：采用 MOSS-TTSD，其说话人分离与音色一致性在客观与主观评测中均表现优异
实时语音助手：部署 MOSS-TTS-Realtime，配合 vLLM 等推理引擎实现端到端 400ms 以内的响应延迟
边缘设备 / 低资源场景：使用 MOSS-TTS-Nano 或 llama.cpp 量化的 MOSS-TTS-GGUF，实现 CPU 实时推理

对于多语言场景，v1.5 版本建议在 API 调用中显式传入 language 参数以获得最佳合成质量。语音克隆时，参考音频长度可显著长于目标文本，v1.5 对此类场景进行了专门优化。

资料来源

OpenMOSS/MOSS-TTS GitHub 仓库: https://github.com/OpenMOSS/MOSS-TTS
MOSS-TTS Technical Report (arXiv:2603.18090)
MOSS-TTSD: Text to Spoken Dialogue Generation (arXiv:2603.19739)

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。