在嵌入式设备上部署 Sherpa-ONNX 实现多语言离线 STT

在嵌入式设备上实现高效的离线语音转文本（STT）功能，是许多物联网和移动应用的核心需求。传统云端 STT 服务依赖互联网连接，不仅存在隐私泄露风险，还在网络不稳定环境中表现不佳。Sherpa-ONNX 作为一款基于 ONNX Runtime 的开源工具包，完美解决了这些痛点。它支持在资源受限的嵌入式平台如 Raspberry Pi、iOS 和 Android 上运行，支持超过 100 种语言的实时转录、语音活动检测（VAD）和说话者分离（Diarization），无需任何网络连接。本文将聚焦于其在嵌入式设备上的部署策略，提供从模型选择到性能优化的可落地参数和清单，帮助开发者快速集成。

Sherpa-ONNX 的核心优势在于其跨平台兼容性和模块化设计。它利用 ONNX 格式的预训练模型，确保在不同硬件架构（如 ARM、x86 和 RISC-V）上的高效执行。根据官方文档，Sherpa-ONNX 已优化支持 streaming 和 non-streaming STT 模式，其中 streaming 模式特别适合实时应用，如智能音箱或语音助手。举例来说，它集成的 Paraformer-large 模型能处理中英日韩等多种语言及方言，支持 VAD 通过 Silero-VAD 模块过滤噪声，实现端到端的离线处理。此外，说话者分离功能允许在多说话者场景中区分身份，例如会议记录或多用户交互，提升了应用的实用性。这些功能在嵌入式设备上运行时，延迟通常控制在 100ms 以内，远优于云服务。

部署 Sherpa-ONNX 的第一步是环境准备。以 Raspberry Pi（RPi）为例，该平台常用于原型开发。推荐使用 Raspberry Pi 4 或更高版本，配备至少 2GB RAM 以支持模型加载。安装过程从克隆 GitHub 仓库开始：git clone https://github.com/k2-fsa/sherpa-onnx，然后构建 Python 绑定，使用 pip 安装依赖如 onnxruntime 和 sounddevice。对于 C++ 部署，可通过 CMake 编译核心库。模型下载是关键，选择适合嵌入式的轻量模型，如 sherpa-onnx-streaming-zipformer-zh-en（约 20MB），支持中英双语。下载命令：wget https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2，解压后指定路径。VAD 模型如 silero-vad.onnx 可单独下载，阈值参数设置为 0.5 以平衡灵敏度和误检率。

在 iOS 设备上部署，Sherpa-ONNX 提供 Swift API，集成到 Xcode 项目中。首先，通过 CocoaPods 添加依赖：pod 'SherpaOnnx', 或手动链接预编译库。模型文件需打包进 app bundle，避免运行时下载。示例代码中，初始化 OnlineRecognizer 时，设置采样率为 16000 Hz，帧长度 16ms，帧偏移 10ms，这些参数确保与模型输入匹配。启用 VAD 时，配置最小语音持续时间为 250ms，静音阈值为 -30dB，适用于手机麦克风输入。对于说话者分离，加载 ecapa-tdnn 模型，嵌入维度设为 192，聚类阈值 0.7 以区分 2-4 名说话者。测试显示，在 iPhone 12 上，实时 STT 准确率达 95% 以上，支持 100+ 语言切换通过 tokens.txt 文件动态加载。

Android 部署同样简便，利用 Java/Kotlin API。下载预构建 APK 或从源代码构建，使用 Gradle 集成：添加 implementation 'com.k2fsa:sherpa-onnx:0.x.x'。权限配置包括录音和存储，模型置于 assets 目录。关键参数包括：热词提升分数 5.0（针对特定词汇如品牌名），最大活跃分数 10.0 以控制解码稳定性。VAD 配置中，padding 持续时间 500ms，端点规则设置为 rule2（更保守的静音检测）。说话者分离在多线程模式下运行，线程数设为设备 CPU 核心数减一，避免过热。对于多语言支持，选择如 sherpa-onnx-sense-voice-zh-en-ja-ko-yue 模型，覆盖中文方言、英语、日语、韩语和粤语，文件大小约 50MB，适合中高端 Android 设备如 Pixel 系列。

优化嵌入式部署的性能是工程化重点。首要选择量化模型，如 int8 版本的 Zipformer，减少内存占用 50% 以上，在 RPi 上推理速度提升 2-3 倍。监控 CPU 使用率不超过 70%，通过 top 命令或 Android Profiler 检查；若超标，降低模型复杂度或使用 GPU 加速（RPi 支持 OpenGL ES）。内存管理参数：设置最大解码长度 1000 帧，防止长音频 OOM。风险点包括噪声干扰导致 VAD 误判，建议集成噪声抑制预处理，阈值 -20dB。另一个限制是电池消耗，在移动设备上，采样率降至 8000 Hz 可节省 30% 功耗，但牺牲部分准确率。回滚策略：若模型加载失败，默认 fallback 到轻量 Whisper tiny.en 模型，仅支持英语。

实际落地清单如下：

环境搭建：确认 ONNX Runtime 版本 ≥1.15，支持 ARM64。
模型选择：优先 streaming 模式，轻量模型 <50MB；多语言用 Paraformer，单语用 Zipformer。
参数配置：
- 采样率：16000 Hz
- VAD 阈值：0.5，静音超时：3000ms
- Diarization 嵌入数：192，相似度阈值：0.75
- 解码 beam size：5（平衡速度与准确）
测试与监控：使用 WAV 文件基准测试，WER <15%；日志记录延迟和错误率。

集成示例（Python on RPi）：

import sherpa_onnx
recognizer = sherpa_onnx.OfflineRecognizer.from_zipformer(
    tokens='tokens.txt',
    encoder='encoder.onnx',
    decoder='decoder.onnx',
    joiner='joiner.onnx'
)
# VAD 集成
vad = sherpa_onnx.OfflineVAD(model='silero_vad.onnx')

类似地在 iOS/Android 中调用 API。

通过这些步骤，开发者可在嵌入式设备上构建 robust 的离线 STT 系统，支持多语言交互，提升应用在无网场景下的可用性。例如，在 RPi 驱动的智能门铃中，结合 VAD 和 Diarization，实现访客身份识别和多语种问答。

资料来源：Sherpa-ONNX GitHub 仓库（https://github.com/k2-fsa/sherpa-onnx），官方文档（https://k2-fsa.github.io/sherpa/onnx/）。