memU：24/7 主动 AI 代理的持久内存层

在构建 24/7 运行的主动 AI 代理时，持久内存层是核心瓶颈。传统代理依赖 LLM 上下文窗口，导致 token 消耗指数级增长，而 memU 通过文件系统式的分层内存架构，将内存持久化并高效检索，实现低成本的长期状态维护与意图预测。

memU 的内存模型模拟文件系统：类别（categories）对应文件夹，内存项（items）对应文件，跨引用（symlinks）链接相关内容，资源（resources）如挂载点存储原始对话或文档。这种结构支持快速导航，从广义主题钻取到具体事实，避免了纯向量数据库的语义模糊性。同时，三层架构（资源层→项层→类别层）区分原始数据、提取事实与汇总主题，确保 proactive 场景下仅加载必要上下文。

其主动内存生命周期包括四个阶段：主代理处理用户查询，memU bot 后台监控输入输出、提取洞见、预测意图并执行预取任务。通过持续同步循环，主代理仅在需要时注入精炼内存，减少 60-75% 的 token 使用。“memU 连续捕获并理解用户意图，即使无命令也能主动行动。” 该设计在 Locomo 基准上达到 92.09% 准确率，证明其在复杂推理任务中的可靠性。

核心 API 是 memorize () 与 retrieve ()，前者实现实时学习，后者支持双模式检索。

memorize () 配置参数：

resource_url：输入路径或 URL，支持文件、对话、图像等多模态（modality="conversation|document|image"）。
user：{"user_id": "123"} 作用域用户内存，避免全局污染。
示例：

result = await service.memorize(
    resource_url="chat_history.json",
    modality="conversation",
    user={"user_id": "user123"}
)

返回即时可用项与类别更新，支持零延迟处理。

retrieve () 参数优化：

queries：多轮上下文 [{"role": "user", "content": {"text": "用户偏好？"}}]。
where：过滤如 {"user_id": "123"} 或 {"agent_id__in": ["1","2"]} 多代理协调。
method="rag"（嵌入快速模式，毫秒级，适合连续监控）或 "llm"（深度推理，预测后续查询）。
示例用于意图预测：

context = await service.retrieve(
    queries=[{"role": "user", "content": {"text": "最近工作习惯"}}],
    where={"user_id": "123"},
    method="rag"
)

返回优先级类别、项与 next_step_query 建议。

自托管部署清单：

环境：Python 3.13+，安装 uv 包管理器。
数据库：Docker 启动 Postgres/pgvector：

docker run -d --name memu-postgres -e POSTGRES_PASSWORD=postgres -p 5432:5432 pgvector/pgvector:pg16

初始化服务：

from memu import MemUService
service = MemUService(
    database_config={"metadata_store": {"provider": "postgres", "url": "postgresql://postgres:postgres@localhost:5432/memu"}},
    llm_profiles={"default": {"api_key": os.getenv("OPENAI_API_KEY"), "chat_model": "gpt-4o-mini"}}
)

自定义 LLM：支持 OpenRouter，配置 provider="openrouter", chat_model="anthropic/claude-3.5-sonnet"。
测试循环：运行 examples/proactive/proactive.py 验证 24/7 同步。

生产监控与阈值参数：

内存增长：监控类别数 < 1000 / 用户，项数 < 10k；超过阈值启用自动修剪（prune_ratio=0.2，低相关项）。
提取延迟：memorize () < 2s，警报>5s（LLM 超时设 30s）。
检索准确：采样 retrieve () 输出，人工验证召回率>90%；RAG 相似度阈值 0.7。
Token 节省：日志 LLM 调用前上下文大小，目标 <4k tokens / 交互。
告警：Prometheus 指标如 memu_extraction_latency、memu_memory_size。

风险与回滚策略：

LLM 提取质量波动：fallback 到备用模型（gpt-4o-mini → claude-3-haiku），A/B 测试准确率。
规模扩展：单实例 >1M 项时分片数据库，按 user_id 哈希；回滚至 in-memory 模式验证。
意图预测偏差：where 过滤严格，仅注入高置信项（confidence >0.8）。

集成 memU 后，代理如交易监控可预取用户风险偏好，邮件代理自动起草响应。云版 api.memu.so/v3 简化起步，企业联系 info@nevamind.ai 定制。

资料来源：

GitHub README：https://github.com/NevaMind-AI/memU
HN 讨论：https://news.ycombinator.com/item?id=46796629

（正文字数：约 1250 字）