Hotdry.

Article

MemPalace:可量化开源 AI 记忆系统的基准测试与架构实践

从 MemPalace 的基准测试方法论出发,探讨原始文本存储架构如何在 LongMemEval 达到 96.6% R@5,以及生产级记忆检索系统的可落地参数设计。

2026-06-06ai-systems

AI 记忆系统的工程实践长期存在一个隐性假设:记忆必须经过 LLM 提取、摘要或结构化才能被有效检索。Mem0 使用 LLM 抽取事实,Mastra 依赖 GPT-5-mini 观察对话,Supermemory 运行多轮 Agentic 搜索。这一假设导致系统复杂度持续攀升,却鲜有团队验证 "原始文本直接存储" 的基线效果。

MemPalace 的基准测试结果表明,这一假设可能是错的。在 LongMemEval(500 题对话记忆基准)上,仅使用 ChromaDB 默认嵌入模型对原始会话文本进行语义搜索,即可达到 96.6% R@5 的检索召回率 —— 无需任何 LLM 参与提取、摘要或重排,零 API 调用,完全本地运行。这一结果不仅超越了 Mem0(30-45%)和 Hindsight(91.4%),更揭示了一个反直觉的工程洞察:信息保留优于信息压缩

核心架构:宫殿隐喻与分层存储

MemPalace 的架构设计借鉴了古希腊记忆术中的 "记忆宫殿" 概念,将对话历史组织为可导航的层级结构:

  • Wing(翼楼):对应人员或项目,如 wing_kaiwing_driftwood
  • Hall(大厅):概念类别,包括 hall_facts(决策)、hall_events(会话 / 里程碑)、hall_discoveries(突破)、hall_preferences(偏好)、hall_advice(建议)
  • Room(房间):具体主题,如 auth-migrationgraphql-switch
  • Drawer(抽屉):原始文本块,作为检索的基本单元

这一结构的价值在于查询时的作用域限定。当搜索限定在特定 Wing 或 Wing+Room 组合时,向量存储仅在子集内评分候选,避免跨项目污染。MCP 工具 mempalace_traversemempalace_find_tunnels 支持跨 Wing 的图遍历,利用共享 Room 名称作为连接桥梁。

关键设计决策:不摘要、不提取、不改写。MemPalace 将会话内容以原文形式存储,检索时直接匹配原始文本。这与主流方案形成鲜明对比 ——Mem0 使用 LLM 抽取结构化事实,当提取错误时信息永久丢失;MemPalace 的 verbatim 策略保留了完整上下文,包括决策理由、权衡讨论和隐含偏好。

基准测试演进:从 96.6% 到 98.4%

MemPalace 的基准测试方法论体现了工程严谨性。团队不仅报告最优结果,更完整公开了分数演进路径和局限性。

基线(Raw ChromaDB):96.6% R@5

  • 存储策略:每会话作为一个文档,原文存储
  • 嵌入模型:all-MiniLM-L6-v2(默认)
  • 检索方式:纯余弦相似度,无后处理
  • 成本:$0,无需 API 密钥

这一基线出乎意料地强劲。失败案例集中于三类:词汇不匹配("yoga classes" vs "went this morning")、隐含偏好(间接表达的偏好)、时间歧义(多会话匹配同一语义)。

混合检索优化(Hybrid v1-v4)

团队针对失败模式逐层优化,每步改进均基于具体错误分析:

版本 R@5 改进点
Raw 96.6% 基线
Hybrid v1 97.8% 添加关键词重叠评分:fused_score = embedding_score × (1 + keyword_weight × overlap)
Hybrid v2 98.4% 添加时间邻近性提升:参考日期附近的会话获得距离缩减(最高 40%)
Hybrid v3 99.4% 添加偏好提取:16 个正则模式捕获 "I usually prefer X" 等表达,生成合成文档
Hybrid v4 100% 针对 3 个特定失败问题的定向修复:引号短语提取、人名提升、怀旧模式

Honest Score:98.4% R@5(Held-out 450 题)

Hybrid v4 的 100% 结果存在方法论问题 —— 最后 0.6% 的提升来自对 3 个已知失败问题的定向调优(引号短语 'sexual compulsions'、人名 Rachel/ukulele、怀旧模式 high school reunion),这属于 "teaching to the test"。

团队随后构建了 clean 的 train/test 分割(50 题开发集 / 450 题 held-out),在从未见过的 450 题上验证 Hybrid v4,获得 98.4% R@5、99.8% R@10。这是可诚实报告的生产级指标。

生产级部署参数

基于 MemPalace 的基准测试实践,以下是构建生产级记忆检索系统的可落地参数清单:

存储层配置

  • 向量存储:ChromaDB(默认)或任何实现 mempalace/backends/base.py 接口的后端
  • 嵌入模型选择:
    • all-MiniLM-L6-v2:英语场景,~30MB,快速部署
    • embeddinggemma-300m:多语言(100+ 语言),推荐用于生产
  • 文档粒度:每会话一个文档(平衡检索精度与存储开销)

混合检索参数

  • 关键词权重:0.1-0.2(避免过度干扰语义相似度)
  • 时间提升阈值:根据会话时间跨度调整,典型值 7-30 天
  • 时间提升系数:0.3-0.4(距离缩减比例)

可选 LLM 重排

  • 模型选择:Claude Haiku($0.001 / 查询)性价比最优,Sonnet($0.003 / 查询)速度略快
  • 触发条件:对 top-20 候选进行重排,仅在需要最高精度时启用
  • 降级策略:API 不可用时自动回退到 Hybrid 模式

索引策略

  • 实时索引:mempalace mine 支持增量摄入
  • 批量回填:mempalace sweep 处理历史会话转录(Claude Code JSONL 等)
  • 合成文档:对偏好表达、关键决策生成辅助索引文档,提升词汇不匹配场景的召回

局限与工程反思

MemPalace 的基准测试报告展现了罕见的工程诚实。团队明确标注了以下局限:

  1. 100% 结果的污染性:Hybrid v4 的 100% LongMemEval 分数包含对特定问题的定向修复,不应作为泛化性能声称。Clean held-out 分数 98.4% 才是诚实指标。

  2. LoCoMo 100% 的结构问题:使用 top-k=50 超过单用户会话总数(19-32),使检索步骤被绕过,实际 honest top-10 分数为 88.9%(Hybrid v5)。

  3. 检索召回 vs QA 准确率:MemPalace 报告的是检索召回(R@5/R@10),而非端到端问答准确率。Mastra 的 94.87% 是 QA 准确率,与 R@5 不直接可比。

这些标注不是缺陷,而是建立可信工程基准的必要实践。在 AI 系统 benchmark 普遍被质疑的背景下,这种透明性本身就是竞争力。

竞品对比与选型建议

系统 方法 LongMemEval 需 LLM 依赖
MemPalace 原始文本 + 混合检索 96.6% / 98.4% 可选 Python + ChromaDB
Mastra LLM 观察提取 94.87% (QA) 必需 GPT-5-mini
Hindsight 时间感知向量检索 91.4% 必需 Gemini-3
Mem0 LLM 事实提取 30-45% 必需 LLM API
Supermemory ASMR Agentic 搜索 ~99% (实验) 必需 多模型集成

选型建议

  • 若需零依赖、隐私优先、离线运行:MemPalace Raw 模式(96.6%)是唯一选择
  • 若需最高检索精度且可接受 API 成本:MemPalace Hybrid + Haiku 重排(~$0.001 / 查询)
  • 若需多跳推理和复杂实体关系:考虑 LLM 提取方案(成本与复杂度更高)

结论

MemPalace 的核心贡献不在于达到了某个百分比,而在于证明了简单基线的力量。当整个行业假设 "记忆必须经过 AI 处理" 时,MemPalace 用 96.6% R@5 表明:原始文本 + 良好嵌入 + 结构化索引,已是一个极强的起点。

这一发现对工程实践的意义是深远的。它建议团队在投入复杂 LLM 提取管道之前,先验证 verbatim 存储的基线效果;它强调信息保留优于过早压缩;它示范了如何通过分层架构(Wing-Hall-Room-Drawer)在简单性与可导航性之间取得平衡。

基准测试的诚实报告同样值得借鉴。公开分数演进路径、标注 contaminated 结果、提供 held-out 验证 —— 这些实践使 MemPalace 的 98.4% 比某些系统的 "100%" 更具可信度。


资料来源

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com