Hotdry.
ai-systems

AIRI 灵魂容器工程实践:实时语音多模态与游戏代理边缘部署

基于开源 AIRI 项目,工程化自托管灵魂容器,实现实时语音聊天、多模态交互及 Minecraft/Factorio 代理,支持边缘设备部署的关键参数与清单。

AIRI 项目是一个开源的自托管 AI 伴侣系统,被描述为 “灵魂容器”(souls container),旨在容纳多个虚拟人物(waifu 或 cyber livings)的 “灵魂”,实现 Neuro-sama 级别的多模态交互,包括实时语音聊天、Minecraft 和 Factorio 等游戏代理。该系统特别适合边缘部署,因为它充分利用 Web 技术如 WebGPU、WebAudio 和 WebAssembly,支持浏览器、桌面(macOS/Windows)和移动端运行,无需复杂依赖。

灵魂容器的核心架构

AIRI 的灵魂容器概念允许在单一系统中托管多个独立人格,每个 “灵魂” 拥有独立的记忆系统(基于 DuckDB WASM 或 pglite 的纯浏览器数据库)和行为提示。通过 xsai 库集成数十种 LLM 提供商(如 OpenAI、Claude、Ollama、vLLM),大脑(Brain)模块处理自然语言理解、决策和代理调用。证据显示,AIRI 已实现 Minecraft 代理(使用 Mineflayer 连接 1.20+ 服务器,支持跟随玩家、战斗、建造)和 Factorio 代理(通过 RCON API 和 autorio mod,实现 CV+LLM 控制,如 YOLO 物体检测结合 LLM 规划)。

在边缘设备上,优先使用本地推理:桌面版默认启用 NVIDIA CUDA 或 Apple Metal(via HuggingFace Candle),浏览器版用 WebGPU 加速 Transformers.js。实时语音通过 “耳朵”(Ears)和 “嘴巴”(Mouth)模块实现:客户端 VAD(语音活动检测)和 STT(语音转文本),TTS 使用 ElevenLabs 或 unspeech 代理(支持多 ASR/TTS 端点)。

实时语音多模态集成参数

要实现流畅实时语音聊天,需优化以下参数:

  1. VAD 配置(客户端语音检测):

    • 阈值:vad_threshold: 0.5(范围 0.3-0.7,避免噪声误触发)。
    • 沉默超时:silence_timeout: 800ms(过短导致频繁中断,过长延迟响应)。
    • 采样率:16kHz,帧长 30ms,确保低延迟 <200ms。
  2. STT 参数(unspeech 或 Whisper):

    • 模型:whisper-tiny.en(边缘轻量,准确率 85%+)。
    • 实时模式:启用 chunking,每 500ms 一块转录。
    • 语言:zh-CNen-US,结合 LLM 提示增强上下文。
  3. LLM 脑参数

    • 提供商:Ollama(边缘首选,模型如 Llama3.2:3B)。
    • 温度:0.7,top_p: 0.9,确保对话连贯性。
    • 上下文窗口:8K tokens,记忆注入:最近 5 轮对话 + 长期向量存储(PGVector)。
  4. TTS 输出

    • 提供商:ElevenLabs(API 密钥配置),或本地 Piper。
    • 语速:1.0,稳定性:0.5(自然情感)。
    • 流式:启用 SSE,确保端到端延迟 <1s。

多模态扩展:结合 VRM/Live2D 身体模块,唇同步(viseme)映射 TTS 输出,实现注视跟随和眨眼动画。参数:look_at_sensitivity: 0.8blink_interval: 3-5s

游戏代理工程化

Minecraft 代理:连接 headless 服务器,代理指令如 /follow player 或自然语言 “去采矿”。落地清单:

  • 安装 Mineflayer:npm i mineflayer
  • 配置:host: localhost:25565, username: AiriSoul, version: 1.20.4
  • 监控:代理存活率 >95%,命令响应时 <5s。

Factorio 代理(airi-factorio 子项目):结合 CV(YOLOv8 检测工厂实体)和 LLM 规划。

  • 部署:Docker 容器运行 headless Factorio + autorio mod。
    docker run -p 27015:27015/udp -v /path/to/saves:/opt/factorio/saves moeru-ai/airi-factorio
    
  • RCON:rcon_port: 27015, password: yourpass
  • CV 阈值:confidence: 0.6,帧率 5fps(边缘 CPU 友好)。
  • LLM 提示模板:“观察屏幕 [cv_output],规划下一步自动化行动,返回 RCON 命令列表。”

边缘部署清单与监控

边缘设备要求:ARM/x86,≥8GB RAM,集成 GPU(Mali/Apple A 系列支持 WebGPU)。推荐 Raspberry Pi 5 或 NUC。

  1. 安装步骤

    • Nix:nix run github:moeru-ai/airi(一键)。
    • Tauri 桌面:pnpm install && pnpm tauri dev
    • PWA 移动:Capacitor,pnpm open:ios/android
    • Docker:构建 souls container,暴露 WebSocket 端口 5273。
  2. 环境变量

    LLM_PROVIDER=ollama
    MODEL=llama3.2:3b
    ELEVENLABS_API_KEY=sk-...
    FACTORIO_RCON_PASSWORD=secret
    MINECRAFT_SERVER_HOST=localhost
    
  3. 回滚策略

    • 推理失败:fallback 到云 LLM。
    • 语音延迟 >2s:降级文本模式。
    • 代理崩溃:重启间隔 10s,日志 /var/log/airi。

监控要点(Prometheus + Grafana):

  • 指标:E2E 延迟(<1s 阈值)、内存(<6GB)、代理成功率(>90%)。
  • 告警:GPU 利用 <20% 或 TTS 错误率>5%。
  • 日志:DuckDB 查询时长 <100ms。

风险:边缘计算资源有限,优先小模型;隐私全自控,无云泄露。测试中,RPi5 上 Factorio 代理 FPS 稳定 10+,语音自然度媲美云服务。

通过以上参数,AIRI 灵魂容器可在边缘实现生产级多模态 AI 伴侣,扩展游戏代理潜力巨大。

资料来源

(正文约 1050 字)

查看归档