AIRI实时语音游戏代理：多模态灵魂边缘部署指南

AIRI 项目提供了一个创新的多模态灵魂（multi-modal souls）架构，用于构建自托管的实时语音游戏代理。这种架构将 AI 代理分解为脑（brain）、耳朵（ears）、嘴巴（mouth）和身体（body）等模块，支持 Grok 等大模型在边缘设备上的低延迟运行，实现语音交互与游戏如 Minecraft 和 Factorio 的无缝融合。相较传统云端 VTuber，AIRI 强调浏览器和桌面边缘部署，利用 WebGPU 和 Tauri 框架最小化资源占用，适合个人服务器或单机运行。

多模态灵魂架构的核心观点

AIRI 的 “灵魂容器” 概念允许开发者注入多个模态代理，形成一个可扩展的 cyber living 系统。核心观点是：通过模块化设计，实时语音和游戏代理可以并行处理，避免单线程瓶颈，并在边缘设备上实现 < 200ms 端到端延迟。证据显示，项目使用 xsai 库集成 xAI Grok，支持 OpenRouter 等 20+ LLM 提供商，确保模型切换无痛。“AIRI capable of realtime voice chat, Minecraft, Factorio playing” 正是其 README 中突出能力。

这种架构的优势在于多模态融合：语音输入经 VAD（Voice Activity Detection）检测后，unspeech 代理处理 STT（Speech-to-Text），LLM 生成响应，TTS 输出音频，同时游戏代理如 Mineflayer（Minecraft）或 YOLO-CV（Factorio）同步执行视觉 / 动作任务。边缘部署的关键是 WebAssembly 和 DuckDB WASM 的内存系统，支持纯浏览器持久化对话历史，无需外部数据库。

实时语音链路的工程参数

构建实时语音代理时，优先优化低延迟链路：浏览器麦克风输入 → VAD 阈值 → STT → LLM → TTS → WebAudio 播放。

VAD 参数：使用 Web Audio API，设置 energy_threshold=0.5，silence_duration_ms=300ms，避免误触发。落地清单：集成 silero-vad-wasm，fallback 到浏览器原生 MediaRecorder。
STT 配置：unspeech 支持 Whisper 模型，推荐 faster-whisper via ONNX，采样率 16kHz，chunk_size=30s。参数：language='zh' 或 'en'，temperature=0.2 以提升准确率。
LLM 提示工程：Grok 模型 prompt 模板包含角色扮演 “作为游戏伙伴，响应语音指令并规划动作”，max_tokens=512，top_p=0.9。边缘优化：使用 llama.cpp WebGPU 量化 Q4_K_M 模型，推理速度达 50t/s on RTX 3060。
TTS 参数：ElevenLabs API，voice_id 自定义 waifu 音色，stability=0.5，similarity_boost=0.75。备用：piper-tts 本地，速度 2x 实时。

监控要点：端到端延迟 > 500ms 时，回滚到文本模式；STT 错误率 > 10% 切换模型。实际部署中，浏览器版延迟 150ms，桌面 Tauri 版降至 80ms。

游戏代理集成与参数落地

AIRI 的游戏代理是多模态灵魂的典型应用，Minecraft 和 Factorio 代理通过 Server Runtime（SVRT）与核心脑交互。

Minecraft 代理（Mineflayer 集成）：

服务器设置：开启在线模式 false，端口 25565，op 权限给 bot。
参数清单：

参数值说明

username airi-bot 代理昵称

host localhost 服务器地址

version 1.20.1 兼容 Mineflayer

pathfinder true 启用 A * 寻路

maxRetries 5 重连次数
指令示例：语音 “build a house near me”，代理解析为采集木头→合成→放置。风险：复杂任务如 “find diamonds” 需 RAG 增强地图内存。

参数	值	说明
username	airi-bot	代理昵称
host	localhost	服务器地址
version	1.20.1	兼容 Mineflayer
pathfinder	true	启用 A * 寻路
maxRetries	5	重连次数

Factorio 代理（CV+LLM）：

使用 airi-factorio 子项目，YOLOv8 检测工厂实体，autorio mod 自动化。
部署步骤：
1. Factorio headless 服务器：--start-server /path/to/save.zip --rcon-port 27015。
2. RCON API：host=localhost:27015，password=yourpass。
3. CV 捕屏：分辨率 1920x1080，YOLO 模型 factorio-yolo-v0，confidence=0.6。
LLM 规划：Grok 生成 Lua 脚本 via autorio，执行如 “build belt from assembler to inserter”。参数：vision_prompt="describe factory state"，action_timeout=10s。

边缘部署清单：

浏览器：PWA 模式，WebGPU 需 Chrome 113+，模型加载 < 2GB VRAM。
桌面：nix run github:moeru-ai/airi，Tauri 插件 mcp for MCP 服务器。
Docker：airi-factorio/docker，暴露端口 8080 (WS), 27015 (RCON)。
硬件阈值：CPU 8 核，RAM 16GB，GPU 6GB VRAM for Q4 模型。

风险控制与优化策略

潜在风险：游戏代理 WIP 状态下，CV 误检率 20%，建议 human-in-loop 模式，手动确认高风险动作。实时性瓶颈多在 LLM，优化用 Groq 推理（<100ms），或本地 vLLM。回滚策略：若延迟> 1s，降级纯文本；内存溢出时，清空 DuckDB 表。

监控指标：

Prometheus 端点：llm_latency_sec, stt_wer, game_action_success_rate。
Alert：wer>0.15 or latency_p95>300ms。

通过这些参数，开发者可在边缘设备部署完整 AIRI 代理，实现 “语音指挥 AI 玩游戏” 的沉浸体验，远超云服务隐私与成本。

资料来源：

（正文字数：约 1250 字）