Hotdry.
ai-systems

AIRI实时语音游戏代理:多模态灵魂边缘部署指南

AIRI自托管Grok伴侣的实时语音与Minecraft/Factorio代理实现,多模态灵魂架构的边缘部署参数与优化要点。

AIRI 项目提供了一个创新的多模态灵魂(multi-modal souls)架构,用于构建自托管的实时语音游戏代理。这种架构将 AI 代理分解为脑(brain)、耳朵(ears)、嘴巴(mouth)和身体(body)等模块,支持 Grok 等大模型在边缘设备上的低延迟运行,实现语音交互与游戏如 Minecraft 和 Factorio 的无缝融合。相较传统云端 VTuber,AIRI 强调浏览器和桌面边缘部署,利用 WebGPU 和 Tauri 框架最小化资源占用,适合个人服务器或单机运行。

多模态灵魂架构的核心观点

AIRI 的 “灵魂容器” 概念允许开发者注入多个模态代理,形成一个可扩展的 cyber living 系统。核心观点是:通过模块化设计,实时语音和游戏代理可以并行处理,避免单线程瓶颈,并在边缘设备上实现 < 200ms 端到端延迟。证据显示,项目使用 xsai 库集成 xAI Grok,支持 OpenRouter 等 20+ LLM 提供商,确保模型切换无痛。“AIRI capable of realtime voice chat, Minecraft, Factorio playing” 正是其 README 中突出能力。

这种架构的优势在于多模态融合:语音输入经 VAD(Voice Activity Detection)检测后,unspeech 代理处理 STT(Speech-to-Text),LLM 生成响应,TTS 输出音频,同时游戏代理如 Mineflayer(Minecraft)或 YOLO-CV(Factorio)同步执行视觉 / 动作任务。边缘部署的关键是 WebAssembly 和 DuckDB WASM 的内存系统,支持纯浏览器持久化对话历史,无需外部数据库。

实时语音链路的工程参数

构建实时语音代理时,优先优化低延迟链路:浏览器麦克风输入 → VAD 阈值 → STT → LLM → TTS → WebAudio 播放。

  • VAD 参数:使用 Web Audio API,设置 energy_threshold=0.5,silence_duration_ms=300ms,避免误触发。落地清单:集成 silero-vad-wasm,fallback 到浏览器原生 MediaRecorder。
  • STT 配置:unspeech 支持 Whisper 模型,推荐 faster-whisper via ONNX,采样率 16kHz,chunk_size=30s。参数:language='zh' 或 'en',temperature=0.2 以提升准确率。
  • LLM 提示工程:Grok 模型 prompt 模板包含角色扮演 “作为游戏伙伴,响应语音指令并规划动作”,max_tokens=512,top_p=0.9。边缘优化:使用 llama.cpp WebGPU 量化 Q4_K_M 模型,推理速度达 50t/s on RTX 3060。
  • TTS 参数:ElevenLabs API,voice_id 自定义 waifu 音色,stability=0.5,similarity_boost=0.75。备用:piper-tts 本地,速度 2x 实时。

监控要点:端到端延迟 > 500ms 时,回滚到文本模式;STT 错误率 > 10% 切换模型。实际部署中,浏览器版延迟 150ms,桌面 Tauri 版降至 80ms。

游戏代理集成与参数落地

AIRI 的游戏代理是多模态灵魂的典型应用,Minecraft 和 Factorio 代理通过 Server Runtime(SVRT)与核心脑交互。

Minecraft 代理(Mineflayer 集成)

  • 服务器设置:开启在线模式 false,端口 25565,op 权限给 bot。
  • 参数清单:
    参数 说明
    username airi-bot 代理昵称
    host localhost 服务器地址
    version 1.20.1 兼容 Mineflayer
    pathfinder true 启用 A * 寻路
    maxRetries 5 重连次数
  • 指令示例:语音 “build a house near me”,代理解析为采集木头→合成→放置。风险:复杂任务如 “find diamonds” 需 RAG 增强地图内存。

Factorio 代理(CV+LLM)

  • 使用 airi-factorio 子项目,YOLOv8 检测工厂实体,autorio mod 自动化。
  • 部署步骤:
    1. Factorio headless 服务器:--start-server /path/to/save.zip --rcon-port 27015。
    2. RCON API:host=localhost:27015,password=yourpass。
    3. CV 捕屏:分辨率 1920x1080,YOLO 模型 factorio-yolo-v0,confidence=0.6。
  • LLM 规划:Grok 生成 Lua 脚本 via autorio,执行如 “build belt from assembler to inserter”。参数:vision_prompt="describe factory state",action_timeout=10s。

边缘部署清单:

  • 浏览器:PWA 模式,WebGPU 需 Chrome 113+,模型加载 < 2GB VRAM。
  • 桌面:nix run github:moeru-ai/airi,Tauri 插件 mcp for MCP 服务器。
  • Docker:airi-factorio/docker,暴露端口 8080 (WS), 27015 (RCON)。
  • 硬件阈值:CPU 8 核,RAM 16GB,GPU 6GB VRAM for Q4 模型。

风险控制与优化策略

潜在风险:游戏代理 WIP 状态下,CV 误检率 20%,建议 human-in-loop 模式,手动确认高风险动作。实时性瓶颈多在 LLM,优化用 Groq 推理(<100ms),或本地 vLLM。回滚策略:若延迟> 1s,降级纯文本;内存溢出时,清空 DuckDB 表。

监控指标:

  • Prometheus 端点:llm_latency_sec, stt_wer, game_action_success_rate。
  • Alert:wer>0.15 or latency_p95>300ms。

通过这些参数,开发者可在边缘设备部署完整 AIRI 代理,实现 “语音指挥 AI 玩游戏” 的沉浸体验,远超云服务隐私与成本。

资料来源

(正文字数:约 1250 字)

查看归档