在构建 24/7 运行的主动 AI 代理时,持久内存层是核心瓶颈。传统代理依赖 LLM 上下文窗口,导致 token 消耗指数级增长,而 memU 通过文件系统式的分层内存架构,将内存持久化并高效检索,实现低成本的长期状态维护与意图预测。
memU 的内存模型模拟文件系统:类别(categories)对应文件夹,内存项(items)对应文件,跨引用(symlinks)链接相关内容,资源(resources)如挂载点存储原始对话或文档。这种结构支持快速导航,从广义主题钻取到具体事实,避免了纯向量数据库的语义模糊性。同时,三层架构(资源层→项层→类别层)区分原始数据、提取事实与汇总主题,确保 proactive 场景下仅加载必要上下文。
其主动内存生命周期包括四个阶段:主代理处理用户查询,memU bot 后台监控输入输出、提取洞见、预测意图并执行预取任务。通过持续同步循环,主代理仅在需要时注入精炼内存,减少 60-75% 的 token 使用。“memU 连续捕获并理解用户意图,即使无命令也能主动行动。” 该设计在 Locomo 基准上达到 92.09% 准确率,证明其在复杂推理任务中的可靠性。
核心 API 是 memorize () 与 retrieve (),前者实现实时学习,后者支持双模式检索。
memorize () 配置参数:
- resource_url:输入路径或 URL,支持文件、对话、图像等多模态(modality="conversation|document|image")。
- user:{"user_id": "123"} 作用域用户内存,避免全局污染。
- 示例:
result = await service.memorize(
resource_url="chat_history.json",
modality="conversation",
user={"user_id": "user123"}
)
返回即时可用项与类别更新,支持零延迟处理。
retrieve () 参数优化:
- queries:多轮上下文 [{"role": "user", "content": {"text": "用户偏好?"}}]。
- where:过滤如 {"user_id": "123"} 或 {"agent_id__in": ["1","2"]} 多代理协调。
- method="rag"(嵌入快速模式,毫秒级,适合连续监控)或 "llm"(深度推理,预测后续查询)。
- 示例用于意图预测:
context = await service.retrieve(
queries=[{"role": "user", "content": {"text": "最近工作习惯"}}],
where={"user_id": "123"},
method="rag"
)
返回优先级类别、项与 next_step_query 建议。
自托管部署清单:
- 环境:Python 3.13+,安装 uv 包管理器。
- 数据库:Docker 启动 Postgres/pgvector:
docker run -d --name memu-postgres -e POSTGRES_PASSWORD=postgres -p 5432:5432 pgvector/pgvector:pg16
- 初始化服务:
from memu import MemUService
service = MemUService(
database_config={"metadata_store": {"provider": "postgres", "url": "postgresql://postgres:postgres@localhost:5432/memu"}},
llm_profiles={"default": {"api_key": os.getenv("OPENAI_API_KEY"), "chat_model": "gpt-4o-mini"}}
)
- 自定义 LLM:支持 OpenRouter,配置 provider="openrouter", chat_model="anthropic/claude-3.5-sonnet"。
- 测试循环:运行 examples/proactive/proactive.py 验证 24/7 同步。
生产监控与阈值参数:
- 内存增长:监控类别数 < 1000 / 用户,项数 < 10k;超过阈值启用自动修剪(prune_ratio=0.2,低相关项)。
- 提取延迟:memorize () < 2s,警报>5s(LLM 超时设 30s)。
- 检索准确:采样 retrieve () 输出,人工验证召回率>90%;RAG 相似度阈值 0.7。
- Token 节省:日志 LLM 调用前上下文大小,目标 <4k tokens / 交互。
- 告警:Prometheus 指标如 memu_extraction_latency、memu_memory_size。
风险与回滚策略:
- LLM 提取质量波动:fallback 到备用模型(gpt-4o-mini → claude-3-haiku),A/B 测试准确率。
- 规模扩展:单实例 >1M 项时分片数据库,按 user_id 哈希;回滚至 in-memory 模式验证。
- 意图预测偏差:where 过滤严格,仅注入高置信项(confidence >0.8)。
集成 memU 后,代理如交易监控可预取用户风险偏好,邮件代理自动起草响应。云版 api.memu.so/v3 简化起步,企业联系 info@nevamind.ai 定制。
资料来源:
- GitHub README:https://github.com/NevaMind-AI/memU
- HN 讨论:https://news.ycombinator.com/item?id=46796629
(正文字数:约 1250 字)