2025年09月30日 ai-systems

用 TypeScript 构建 Handy 风格的离线语音转文本引擎

基于 Tauri 和本地 Whisper 模型，在 TypeScript 中实现实时隐私保护的离线 STT，提供模型选择、VAD 参数和性能优化指南。

内容加载中...

在当今数据隐私日益重要的时代，开发一个完全离线的语音转文本（STT）引擎显得尤为关键。传统的云端 STT 服务虽然准确率高，但不可避免地涉及音频数据的上传，这不仅可能泄露用户隐私，还依赖网络连接，限制了在偏远或安全敏感环境下的应用。Handy 项目作为一款开源的跨平台桌面应用，展示了如何利用 TypeScript 构建前端界面，并通过 Tauri 框架与 Rust 后端无缝集成本地机器学习模型，实现实时、隐私-focused 的转录功能。这种架构不仅确保了数据本地化处理，还提供了高度的可扩展性，允许开发者根据需求自定义模型和参数。

观点上，离线 STT 的核心优势在于其独立性和可靠性。证据显示，Handy 使用 Whisper 模型（包括 Small、Medium、Turbo 和 Large 变体）结合 GPU 加速，当可用时，能在本地硬件上达到接近云端的准确率，而无需任何网络交互。根据 GitHub 仓库描述，Handy 的处理流程完全本地化：从音频捕获到 VAD（语音活动检测）过滤，再到模型推理，整个链路不涉及外部服务。这避免了云服务常见的延迟和隐私风险，尤其适合医疗、教育或企业内部应用场景。

要落地这样一个引擎，首先需要选择合适的框架和技术栈。Tauri 是理想选择，因为它允许 TypeScript 在 React 或 Vue 前端中处理 UI 和用户交互，而 Rust 后端负责高性能的系统集成和 ML 推理。安装 Tauri CLI 后，创建一个新项目：npm create tauri-app，选择 TypeScript 模板。核心库包括 whisper-rs 用于 Whisper 模型加载，vad-rs 用于 Silero VAD，以及 cpal 处理跨平台音频 I/O。在 TypeScript 前端，定义一个简单的状态管理器来控制录音启动/停止，例如使用 Zustand 库：

import { create } from 'zustand';

interface SttState {
  isRecording: boolean;
  transcription: string;
  startRecording: () => void;
  stopRecording: () => void;
}

const useSttStore = create<SttState>((set, get) => ({
  isRecording: false,
  transcription: '',
  startRecording: () => {
    // 通过 Tauri invoke 调用 Rust 后端开始录音
    window.__TAURI__.invoke('start_recording');
    set({ isRecording: true });
  },
  stopRecording: () => {
    window.__TAURI__.invoke('stop_recording');
    set({ isRecording: false });
  },
}));

在 Rust 后端，定义命令处理函数。使用 tauri::command 宏暴露接口，例如：

#[tauri::command]
fn start_recording() -> Result<String, String> {
    // 初始化音频流和 VAD
    let vad = Vad::new();
    // ... 录音逻辑
    Ok("Recording started".to_string())
}

可落地参数方面，模型选择是首要考虑。Whisper 的 Tiny 模型（约 39MB）适合低端设备，推理速度可达 10x 实时，但准确率约 85%；Medium 模型（约 1.5GB）平衡了性能和精度，适合中端硬件。对于 CPU-only 场景，Parakeet V3 模型是优选，它支持自动语言检测，且在 i5 处理器上实现 5x 实时速度。VAD 参数配置至关重要：Silero VAD 的敏感度阈值默认为 0.5，可根据环境噪声调整为 0.3（安静环境）至 0.7（嘈杂环境），以过滤无效音频片段。采样率推荐 16000 Hz，单声道，16-bit 深度，这与 Whisper 输入兼容，并减少处理开销。

优化实时性是另一个关键点。证据表明，Handy 通过 push-to-talk 模式（按住快捷键录音）最小化延迟，结合 Rubato 库进行音频重采样，确保输入一致性。在 TypeScript 中，可以集成全局快捷键监听，使用 rdev Rust 库暴露接口，前端通过事件监听响应。监控要点包括：实时显示转录进度、错误率统计（如词错误率 WER < 10% 为目标），以及资源使用（CPU < 50%，内存 < 2GB）。对于扩展性，开发者可通过插件系统加载自定义模型，例如支持 Hugging Face 的 ONNX 格式模型，只需在 Rust 中添加 ONNX Runtime 绑定。

风险与限制不可忽视。低端硬件上，Large 模型可能导致 >1s 延迟，建议 fallback 到 Tiny 模型。隐私虽本地化，但模型训练数据可能引入偏见，需审计开源模型来源。此外，跨平台兼容性需测试：macOS Apple Silicon 原生支持，Windows/Linux 依赖 CUDA/ROCm GPU。回滚策略：如果推理失败，默认为空转录并日志错误。

总之，通过 TypeScript 和 Tauri 构建的离线 STT 引擎，如 Handy 所示，不仅提升了应用隐私和独立性，还为开发者提供了灵活的自定义空间。实际部署中，遵循上述参数和清单，能快速实现一个高效的实时转录系统，适用于从个人助手到专业工具的各种场景。这种本地 ML 范式，正推动 AI 系统向更安全、更可控的方向演进。

（字数：1024）