AI 记忆系统的工程实践长期存在一个隐性假设:记忆必须经过 LLM 提取、摘要或结构化才能被有效检索。Mem0 使用 LLM 抽取事实,Mastra 依赖 GPT-5-mini 观察对话,Supermemory 运行多轮 Agentic 搜索。这一假设导致系统复杂度持续攀升,却鲜有团队验证 "原始文本直接存储" 的基线效果。
MemPalace 的基准测试结果表明,这一假设可能是错的。在 LongMemEval(500 题对话记忆基准)上,仅使用 ChromaDB 默认嵌入模型对原始会话文本进行语义搜索,即可达到 96.6% R@5 的检索召回率 —— 无需任何 LLM 参与提取、摘要或重排,零 API 调用,完全本地运行。这一结果不仅超越了 Mem0(30-45%)和 Hindsight(91.4%),更揭示了一个反直觉的工程洞察:信息保留优于信息压缩。
核心架构:宫殿隐喻与分层存储
MemPalace 的架构设计借鉴了古希腊记忆术中的 "记忆宫殿" 概念,将对话历史组织为可导航的层级结构:
- Wing(翼楼):对应人员或项目,如
wing_kai、wing_driftwood - Hall(大厅):概念类别,包括
hall_facts(决策)、hall_events(会话 / 里程碑)、hall_discoveries(突破)、hall_preferences(偏好)、hall_advice(建议) - Room(房间):具体主题,如
auth-migration、graphql-switch - Drawer(抽屉):原始文本块,作为检索的基本单元
这一结构的价值在于查询时的作用域限定。当搜索限定在特定 Wing 或 Wing+Room 组合时,向量存储仅在子集内评分候选,避免跨项目污染。MCP 工具 mempalace_traverse 和 mempalace_find_tunnels 支持跨 Wing 的图遍历,利用共享 Room 名称作为连接桥梁。
关键设计决策:不摘要、不提取、不改写。MemPalace 将会话内容以原文形式存储,检索时直接匹配原始文本。这与主流方案形成鲜明对比 ——Mem0 使用 LLM 抽取结构化事实,当提取错误时信息永久丢失;MemPalace 的 verbatim 策略保留了完整上下文,包括决策理由、权衡讨论和隐含偏好。
基准测试演进:从 96.6% 到 98.4%
MemPalace 的基准测试方法论体现了工程严谨性。团队不仅报告最优结果,更完整公开了分数演进路径和局限性。
基线(Raw ChromaDB):96.6% R@5
- 存储策略:每会话作为一个文档,原文存储
- 嵌入模型:all-MiniLM-L6-v2(默认)
- 检索方式:纯余弦相似度,无后处理
- 成本:$0,无需 API 密钥
这一基线出乎意料地强劲。失败案例集中于三类:词汇不匹配("yoga classes" vs "went this morning")、隐含偏好(间接表达的偏好)、时间歧义(多会话匹配同一语义)。
混合检索优化(Hybrid v1-v4)
团队针对失败模式逐层优化,每步改进均基于具体错误分析:
| 版本 | R@5 | 改进点 |
|---|---|---|
| Raw | 96.6% | 基线 |
| Hybrid v1 | 97.8% | 添加关键词重叠评分:fused_score = embedding_score × (1 + keyword_weight × overlap) |
| Hybrid v2 | 98.4% | 添加时间邻近性提升:参考日期附近的会话获得距离缩减(最高 40%) |
| Hybrid v3 | 99.4% | 添加偏好提取:16 个正则模式捕获 "I usually prefer X" 等表达,生成合成文档 |
| Hybrid v4 | 100% | 针对 3 个特定失败问题的定向修复:引号短语提取、人名提升、怀旧模式 |
Honest Score:98.4% R@5(Held-out 450 题)
Hybrid v4 的 100% 结果存在方法论问题 —— 最后 0.6% 的提升来自对 3 个已知失败问题的定向调优(引号短语 'sexual compulsions'、人名 Rachel/ukulele、怀旧模式 high school reunion),这属于 "teaching to the test"。
团队随后构建了 clean 的 train/test 分割(50 题开发集 / 450 题 held-out),在从未见过的 450 题上验证 Hybrid v4,获得 98.4% R@5、99.8% R@10。这是可诚实报告的生产级指标。
生产级部署参数
基于 MemPalace 的基准测试实践,以下是构建生产级记忆检索系统的可落地参数清单:
存储层配置
- 向量存储:ChromaDB(默认)或任何实现
mempalace/backends/base.py接口的后端 - 嵌入模型选择:
all-MiniLM-L6-v2:英语场景,~30MB,快速部署embeddinggemma-300m:多语言(100+ 语言),推荐用于生产
- 文档粒度:每会话一个文档(平衡检索精度与存储开销)
混合检索参数
- 关键词权重:0.1-0.2(避免过度干扰语义相似度)
- 时间提升阈值:根据会话时间跨度调整,典型值 7-30 天
- 时间提升系数:0.3-0.4(距离缩减比例)
可选 LLM 重排
- 模型选择:Claude Haiku(
$0.001 / 查询)性价比最优,Sonnet($0.003 / 查询)速度略快 - 触发条件:对 top-20 候选进行重排,仅在需要最高精度时启用
- 降级策略:API 不可用时自动回退到 Hybrid 模式
索引策略
- 实时索引:
mempalace mine支持增量摄入 - 批量回填:
mempalace sweep处理历史会话转录(Claude Code JSONL 等) - 合成文档:对偏好表达、关键决策生成辅助索引文档,提升词汇不匹配场景的召回
局限与工程反思
MemPalace 的基准测试报告展现了罕见的工程诚实。团队明确标注了以下局限:
-
100% 结果的污染性:Hybrid v4 的 100% LongMemEval 分数包含对特定问题的定向修复,不应作为泛化性能声称。Clean held-out 分数 98.4% 才是诚实指标。
-
LoCoMo 100% 的结构问题:使用 top-k=50 超过单用户会话总数(19-32),使检索步骤被绕过,实际 honest top-10 分数为 88.9%(Hybrid v5)。
-
检索召回 vs QA 准确率:MemPalace 报告的是检索召回(R@5/R@10),而非端到端问答准确率。Mastra 的 94.87% 是 QA 准确率,与 R@5 不直接可比。
这些标注不是缺陷,而是建立可信工程基准的必要实践。在 AI 系统 benchmark 普遍被质疑的背景下,这种透明性本身就是竞争力。
竞品对比与选型建议
| 系统 | 方法 | LongMemEval | 需 LLM | 依赖 |
|---|---|---|---|---|
| MemPalace | 原始文本 + 混合检索 | 96.6% / 98.4% | 可选 | Python + ChromaDB |
| Mastra | LLM 观察提取 | 94.87% (QA) | 必需 | GPT-5-mini |
| Hindsight | 时间感知向量检索 | 91.4% | 必需 | Gemini-3 |
| Mem0 | LLM 事实提取 | 30-45% | 必需 | LLM API |
| Supermemory ASMR | Agentic 搜索 | ~99% (实验) | 必需 | 多模型集成 |
选型建议:
- 若需零依赖、隐私优先、离线运行:MemPalace Raw 模式(96.6%)是唯一选择
- 若需最高检索精度且可接受 API 成本:MemPalace Hybrid + Haiku 重排(~$0.001 / 查询)
- 若需多跳推理和复杂实体关系:考虑 LLM 提取方案(成本与复杂度更高)
结论
MemPalace 的核心贡献不在于达到了某个百分比,而在于证明了简单基线的力量。当整个行业假设 "记忆必须经过 AI 处理" 时,MemPalace 用 96.6% R@5 表明:原始文本 + 良好嵌入 + 结构化索引,已是一个极强的起点。
这一发现对工程实践的意义是深远的。它建议团队在投入复杂 LLM 提取管道之前,先验证 verbatim 存储的基线效果;它强调信息保留优于过早压缩;它示范了如何通过分层架构(Wing-Hall-Room-Drawer)在简单性与可导航性之间取得平衡。
基准测试的诚实报告同样值得借鉴。公开分数演进路径、标注 contaminated 结果、提供 held-out 验证 —— 这些实践使 MemPalace 的 98.4% 比某些系统的 "100%" 更具可信度。
资料来源
- MemPalace GitHub 仓库:https://github.com/MemPalace/mempalace
- 完整基准测试方法论:https://github.com/MemPalace/mempalace/blob/develop/benchmarks/BENCHMARKS.md
- 宫殿架构概念文档:https://mempalaceofficial.com/concepts/the-palace.html
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。