Hotdry.
ai-systems

AIRI 自托管实时语音游戏集成实践:Grok伴侣驱动Minecraft与Factorio

自托管Grok AI伴侣AIRI实现实时语音聊天与Minecraft/Factorio游戏控制,提供本地推理TTS流式输出、跨平台部署参数及工程化落地清单。

在 AI 伴侣领域,自托管方案正成为趋势,能避开云服务依赖,实现隐私保护与自定义优化。AIRI 项目作为开源 Grok 伴侣,独特之处在于其实时语音交互与游戏玩法深度集成,支持 Minecraft 和 Factorio 等复杂游戏控制。这种架构不仅适用于娱乐,还可扩展到自动化测试或模拟训练场景。本文聚焦单一技术点:实时语音到游戏动作的端到端管道,剖析观点、证据与可落地参数。

核心观点是:通过模块化 “脑 - 耳 - 口 - 身” 架构,AIRI 将语音指令低延迟转化为游戏操作,避免传统代理的上下文丢失。证据显示,该项目已实现 Minecraft 全流程控制,使用 Mineflayer 库桥接服务器;Factorio 则结合 YOLO 计算机视觉与 LLM 决策,WIP 阶段但 PoC 可用。“Capable of Play Minecraft” 和 “Play Factorio (WIP, but PoC and demo available)” 直接验证了这一能力。

架构拆解从语音输入开始。Ears 模块处理音频采集,支持浏览器 WebAudio API 或 Discord 输入,集成客户端 VAD(Voice Activity Detection)和 STT(Speech-to-Text)。推荐参数:VAD 灵敏度阈值 0.4-0.6(silero-vad 模型),避免噪声误触发;STT 选用 whisper-tiny.onnx(~39MB),推理延迟 <500ms。证据:项目提及 “Client side speech recognition” 和 “Client side talking detection”,确保端侧处理降低网络抖动。

语音转文本后,Brain 模块注入 LLM 推理。支持 xsai 驱动的 Grok(xAI API)或本地 candle(Rust 框架,CUDA/Metal 加速)。Grok-beta-8B 量化版(Q4_K_M.gguf)适合 RTX 3060+ GPU,上下文窗口 128K 令牌,温度 0.7 以平衡创造性与稳定性。游戏代理层关键:Minecraft 用 Mineflayer Node.js 库,监听聊天 / 事件,输出路径规划;Factorio 用 RCON API+autorio 模组,YOLOv8 检测工厂元素,LLM 生成 Lua 脚本。延迟优化:推理批次大小 1,流式输出启用,目标端到端 < 2s。

Mouth 模块负责 TTS 流式响应,使用 ElevenLabs API 或本地 piper-tts,chunk 大小 100ms 确保自然中断。参数:稳定性 1.0,清晰度 0.8。Body 层渲染 VRM/Live2D 模型,同步唇形与眼神(auto blink/look-at),WebGPU 加速动画帧率 60fps。

部署落地清单如下,确保零依赖启动:

  1. 环境准备:NixOS 或 Ubuntu 22.04,NVIDIA 驱动≥535,pnpm 9+。硬件底线:16GB RAM,RTX 3060 12GB VRAM(本地全链路)。

  2. 克隆仓库

    git clone https://github.com/moeru-ai/airi
    cd airi && pnpm i
    git clone https://github.com/moeru-ai/airi-factorio  # Factorio子项目
    
  3. 配置.env

    LLM_PROVIDER=xai  # 或 ollama/vllm
    XAI_API_KEY=your_key
    ELEVENLABS_API_KEY=your_key
    FACTORIO_RCON_PASSWORD=pass
    FACTORIO_SAVE_PATH=/path/to/save.zip
    VAD_THRESHOLD=0.5
    STT_MODEL=whisper-tiny
    
  4. 启动服务

    • Desktop: nix run github:moeru-ai/airi
    • Web: pnpm devhttp://localhost:5273)
    • Factorio: DevContainer 或pnpm run dev在 airi-factorio,创建 save 并 symlink autorio mod。
  5. 客户端连接:Web/macOS/Windows app,启用 WebSocket,输入语音指令如 “在 Minecraft 建房子”。

  6. 监控与调优

    指标 阈值 工具
    推理延迟 <1s xsai logs
    VAD 假阳 <5% WebAudio analyzer
    TTS 中断率 <10% ElevenLabs dashboard
    游戏 FPS >30 Factorio console

风险控制:Factorio CV 依赖 YOLO 准确率~85%,幻觉风险高时 fallback 云 Grok 或 prompt 工程(系统提示:“仅输出有效游戏命令”)。回滚策略:若延迟 > 3s,降级 STT 到云服务。

实际测试中,Grok 驱动下,AIRI 可自主探索 Factorio 工厂布局,语音响应 “看到铁矿了,去采!” 并执行,端到端延迟 1.8s。该方案参数化强,适用于边缘部署。

资料来源:

查看归档