Whisper 大规模弱监督语音识别：分词器设计、多任务训练与解码策略的工程实践

引言：从监督学习到弱监督的范式转移

传统语音识别系统依赖精心标注的高质量数据集，这种强监督范式在数据获取成本和覆盖范围上存在天然瓶颈。OpenAI 于 2022 年发布的 Whisper 系统通过68 万小时的多语言弱监督音频 - 文本对进行训练，证明了在数据规模足够大的情况下，弱监督信号同样能够训练出具有强泛化能力的语音识别模型。这一方法不仅降低了对人工精确标注的依赖，更重要的是实现了单一模型在 99 种语言上的零样本迁移能力。

Whisper 的核心创新在于将 Transformer 序列到序列架构与多任务学习框架相结合，通过统一的任务表示格式，使单一模型能够同时处理语音识别、语音翻译、语言识别和语音活动检测等多种任务。本文将从工程实现角度，深入剖析其分词器设计、多任务训练目标与解码策略的关键技术细节。

分词器设计：字节级 BPE 的多语言适配

Whisper 采用 GPT-2 风格的 ** 字节级 BPE（Byte-Level Byte Pair Encoding）** 分词器，词汇量约为 50,000。这一设计选择具有深刻的工程考量：字节级表示天然支持任意 Unicode 字符，无需为每种语言单独设计字符集，从根本上解决了多语言场景下的字符覆盖问题。

与标准 GPT-2 分词器不同，Whisper 对词汇表进行了多语言重拟合（refit）。具体而言，在保持词汇量不变的前提下，通过分析大规模多语言文本的 token 分布，调整 BPE 合并规则，使词汇表能够更高效地覆盖非拉丁语系（如中文、日文、阿拉伯文、印地语等）的常见字符序列。这种适配显著降低了多语言场景下的 token 碎片化问题 —— 即避免将常见多字节字符序列过度拆分为多个 subword token。

在实现层面，Whisper 的分词器通过语言前缀 token 实现语言条件控制。例如，<|zh|>、<|en|>、<|ja|> 等特殊 token 被预置到解码序列中，引导模型生成特定语言的文本输出。这种设计与多任务训练格式紧密结合，使模型能够在单次前向传播中完成语言识别与转录的联合推理。

多任务训练目标：统一序列格式的任务表示

Whisper 的多任务训练框架是其架构设计的精髓所在。系统将语音识别、语音翻译、语言识别和语音活动检测等多种任务统一编码为待预测的 token 序列，使单一解码器能够替代传统语音处理流水线中的多个阶段。

具体实现上，Whisper 定义了一组特殊任务 token 作为任务指定符：

<|transcribe|>：转录任务，将语音转换为同语言文字
<|translate|>：翻译任务，将非英语语音翻译为英文
<|notimestamps|>：禁用时间戳生成
<|startoftranscript|> / <|endoftranscript|>：序列边界标记

训练时，输入音频首先通过编码器转换为特征表示，解码器则以自回归方式生成包含任务指令和转录文本的完整序列。例如，一个中文语音转录任务的解码目标序列可能形如：

<|startoftranscript|><|zh|><|transcribe|><|notimestamps|>这是要转录的中文内容<|endoftranscript|>

这种统一格式使得模型在推理阶段能够通过简单的 token 前缀切换任务类型，无需修改模型结构或进行任务特定的微调。从工程角度看，这种设计大幅简化了部署流程，降低了维护多个专用模型的运维成本。

解码策略：温度调节与条件概率阈值

Whisper 的解码策略在工程实现上提供了丰富的可调参数，以适应不同的精度 - 延迟权衡需求。

** 贪婪解码（Greedy Decoding）** 是最基础的解码方式，每一步选择概率最高的 token。这种方式计算开销最小，适合实时性要求高的场景，但在处理模糊音频时可能陷入局部最优。

** 束搜索（Beam Search）** 通过维护多个候选序列，在全局范围内寻找更优解。Whisper 默认使用 beam size 为 5 的束搜索，在计算资源允许的情况下能够显著提升转录准确率。

** 温度调节（Temperature Sampling）** 是 Whisper 解码策略的关键参数。温度值控制采样分布的平滑程度：

温度接近 0：趋近于贪婪解码，输出确定性高
温度为 1：标准采样分布
温度大于 1：增加随机性，适合生成多样化候选

Whisper 的默认实现采用动态温度调度：初始使用温度 0（贪婪解码），当模型对预测结果的不确定性超过阈值时，逐步提升温度并重新采样。这种策略在保证输出质量的同时，为处理困难样本提供了回退机制。

条件概率阈值用于过滤低置信度的 token。当某个 token 的条件概率低于设定阈值（默认 0.5）时，解码器会将其标记为缺失或尝试重新采样。这一机制对于处理背景噪声较强的音频尤为重要。

工程部署：模型选型与性能权衡

Whisper 提供了六种规模的模型，从 39M 参数的 tiny 到 1550M 参数的 large，以及针对推理优化的 turbo 变体。模型选型需要综合考量准确率需求、硬件资源约束和延迟要求：

模型	参数量	VRAM 需求	相对速度	适用场景
tiny	39M	~1 GB	~10x	边缘设备、实时预览
base	74M	~1 GB	~7x	资源受限环境
small	244M	~2 GB	~4x	平衡精度与速度
medium	769M	~5 GB	~2x	高精度需求
large	1550M	~10 GB	1x	最佳准确率
turbo	809M	~6 GB	~8x	生产环境推荐

值得注意的是，turbo 模型作为 large-v3 的优化版本，在保持相近准确率的同时实现了约 8 倍的推理加速，是生产环境部署的首选。然而，turbo 模型未经过翻译任务训练，若需将非英语语音翻译为英文，应选用 multilingual 系列的 base、small、medium 或 large 模型。

在输入处理方面，Whisper 采用滑动 30 秒窗口机制处理长音频。音频首先转换为 80 维对数梅尔频谱图，编码器提取特征后，解码器以自回归方式生成文本。对于长音频，系统会在窗口边界处进行适当的上下文重叠，以减少边界效应导致的转录不连贯问题。

局限与注意事项

尽管 Whisper 在零样本场景下表现出色，但在工程实践中仍需注意以下局限：

弱监督数据的质量差异导致模型对某些口音、方言或特定领域术语的识别效果可能不及专门训练的模型。在部署前，建议针对目标场景进行充分的测试验证。

英语专用模型与多语言模型的权衡：对于纯英语应用，.en 专用模型（如 tiny.en、base.en）通常表现优于对应规模的多语言模型，尤其在 tiny 和 base 规模下差异显著。这一差异在 small 和 medium 规模上逐渐缩小。

翻译任务的模型限制：如前所述，turbo 模型不支持翻译任务，若错误指定 --task translate 参数，模型将返回原始语言而非英文翻译结果。

结语

Whisper 代表了语音识别领域从强监督向大规模弱监督演进的重要里程碑。其工程设计的精妙之处在于通过统一的多任务序列格式、字节级多语言分词器和灵活的解码策略，实现了单一模型在多样化语音处理任务上的强泛化能力。对于工程团队而言，理解这些设计决策背后的权衡，有助于在实际部署中做出合理的模型选型与参数调优，充分发挥这一开源工具的价值。

参考来源

OpenAI Whisper GitHub 仓库: https://github.com/openai/whisper
论文 "Robust Speech Recognition via Large-Scale Weak Supervision" (arXiv:2212.04356)
Hugging Face Transformers Whisper Tokenizer 实现

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。