Hotdry.
ai-systems

Qwen3-Omni 原生多模态流式推理:图文音实时混合的端到端实践

拆解 Qwen3-Omni 的 Thinker-Talker MoE 架构,给出 234 ms 首包延迟背后的工程化参数与落地清单。

过去两年,多模态大模型普遍采用 “拼接式” 路线:ASR→LLM→TTS,再加一条视觉支路。链路长、损耗大,端到端延迟动辄 1 s 以上,高并发场景下更显吃力。Qwen3-Omni 把 “拼接” 做成 “原生”—— 在统一 LLM 内部完成文本、图像、音频、视频四模态的混合推理,并首次把冷启动首包延迟压到 234 ms。本文从架构、流式策略到部署参数,逐层拆解其可复制的工程化方案。

一、原生架构:Thinker-Talker 双 MoE

1. 角色分工

  • Thinker:30B-MoE,3.3B 激活,负责跨模态理解、推理与文本生成。输入图文音视频统一用 TM-RoPE 编码,同一条序列里并行放置。
  • Talker:2.5B-MoE,0.8B 激活,仅做流式语音合成。它并不等 Thinker 全部生成完毕,而是提前 1.5 s 拿到高层语义向量,开始自回归预测离散语音码本。

2. 耦合点解耦

Thinker 与 Talker 之间用 512 维 latent 向量通信,粒度 250 ms,允许独立扩缩容。线上高并发场景可把 Talker 无状态化部署到 T4 小卡,Thinker 留在 A100,显存占用降低 40 %。

二、音频编码器:AuT 的 2000 万小时 “耳朵”

自研 Audio Transformer(AuT)替代 Whisper:

  • 采样率 16 kHz,80 维 mel 滤波,帧长 25 ms,跳帧 10 ms;
  • 8×stride 卷积下采样到 12.5 Hz,与视频 2 fps 采样对齐,保证音视频同序列长度;
  • 支持 40 min 长音频,引入 4 k 可学习缓存 token,推理时 O (1) 更新,显存恒定 3.2 GB。

三、流式语音:多码本 RVQ + 轻量 ConvNet

1. 8 码本残差向量量化

  • 码本大小 1024,维度 256,逐级残差,等效 24 kbps;
  • 每帧仅解码 1 个码本即可初步发声,首帧延迟 12 ms,后续逐级 refine,主观 MOS 下降 <0.15。

2. Code2Wav 渲染器

  • 3 层因果 ConvNet,通道 512→1024→1,kernel 7,stride 1;
  • 摒弃扩散模型,单帧计算量 0.7 GFLOPs,RTF<0.03(T4 批 = 1)。

3. 流式调度

  • 分块预填充:音频 4 s 一块,视频 60 s 一块,块内并行编码,块间自回归;
  • MTP(Multi-Token Prediction)8× 投机解码:Thinker 一次吐 8 个 latent,Talker 并行预测 8 帧码本,吞吐提升 3.4×;
  • 自然轮流控制:检测到 350 ms 静音即中断,支持用户插话,模型放弃末 1.2 s 生成,回滚成本 <10 %。

四、落地参数清单

场景 显存 (BF16) 并发 (QPS) 首包延迟 码本自适应
2×A100 80 GB 144 GB 8 234 ms 8→4→1 自动降
1×A100 80 GB 82 GB 4 260 ms 同上
INT4 单卡 24 GB 24 GB 2 290 ms 4→1 降
  • 弱网阈值:丢包 > 5 % 或 RTT>300 ms 时,服务端主动降码本,带宽从 24 kbps 降到 6 kbps,MOS 仅掉 0.2。
  • 长视频优化:>120 s 视频关闭 Talker,仅输出文本,显存回落 10 GB,可再增 2 路并发。

五、实测数据

在 36 项公开音频 / 音视频基准上,Qwen3-Omni 32 项开源 SOTA,22 项总榜第一,中文普通话 WER 4.28 %,低于 Seed-ASR 的 4.66 %;2 fps 视频采样下,120 s 片段图文音混合推理耗时 1.8 s,比串联方案快 4.2×,显存节省 40 %。

六、边缘部署展望

  • 量化:AWQ INT4 后模型 15 GB,RTF 0.05,骁龙 8 Gen3 NPU 可跑 1 路实时;
  • 函数调用:正在内测 audio-tool 版,支持语音触发 “打开客厅灯” 等 Agent 能力,预计 2026 Q1 开源;
  • 多 speaker OCR:视频流同步输出带时间轴的字幕与说话人 ID,已在客服场景试点,识别准确率 94 %。

结语

Qwen3-Omni 用 “原生统一” 替代 “拼接集成”,把多模态延迟压到人类对话级别,并给出可复制的显存、并发、码本回退参数。随着边缘量化与 Agent 化推进,图文音实时混合推理将不再是云端大算力专属,而会成为下一代 AI 产品的默认体验。


资料来源
[1] 今日头条《Qwen3-Omni 横空出世》2025-11-25
[2] 腾讯云《Qwen3-Omni 技术报告》2025-11-20

查看归档