MemPalace：可量化开源 AI 记忆系统的基准测试与架构实践

AI 记忆系统的工程实践长期存在一个隐性假设：记忆必须经过 LLM 提取、摘要或结构化才能被有效检索。Mem0 使用 LLM 抽取事实，Mastra 依赖 GPT-5-mini 观察对话，Supermemory 运行多轮 Agentic 搜索。这一假设导致系统复杂度持续攀升，却鲜有团队验证 "原始文本直接存储" 的基线效果。

MemPalace 的基准测试结果表明，这一假设可能是错的。在 LongMemEval（500 题对话记忆基准）上，仅使用 ChromaDB 默认嵌入模型对原始会话文本进行语义搜索，即可达到 96.6% R@5 的检索召回率 —— 无需任何 LLM 参与提取、摘要或重排，零 API 调用，完全本地运行。这一结果不仅超越了 Mem0（30-45%）和 Hindsight（91.4%），更揭示了一个反直觉的工程洞察：信息保留优于信息压缩。

核心架构：宫殿隐喻与分层存储

MemPalace 的架构设计借鉴了古希腊记忆术中的 "记忆宫殿" 概念，将对话历史组织为可导航的层级结构：

Wing（翼楼）：对应人员或项目，如 wing_kai、wing_driftwood
Hall（大厅）：概念类别，包括 hall_facts（决策）、hall_events（会话 / 里程碑）、hall_discoveries（突破）、hall_preferences（偏好）、hall_advice（建议）
Room（房间）：具体主题，如 auth-migration、graphql-switch
Drawer（抽屉）：原始文本块，作为检索的基本单元

这一结构的价值在于查询时的作用域限定。当搜索限定在特定 Wing 或 Wing+Room 组合时，向量存储仅在子集内评分候选，避免跨项目污染。MCP 工具 mempalace_traverse 和 mempalace_find_tunnels 支持跨 Wing 的图遍历，利用共享 Room 名称作为连接桥梁。

关键设计决策：不摘要、不提取、不改写。MemPalace 将会话内容以原文形式存储，检索时直接匹配原始文本。这与主流方案形成鲜明对比 ——Mem0 使用 LLM 抽取结构化事实，当提取错误时信息永久丢失；MemPalace 的 verbatim 策略保留了完整上下文，包括决策理由、权衡讨论和隐含偏好。

基准测试演进：从 96.6% 到 98.4%

MemPalace 的基准测试方法论体现了工程严谨性。团队不仅报告最优结果，更完整公开了分数演进路径和局限性。

基线（Raw ChromaDB）：96.6% R@5

存储策略：每会话作为一个文档，原文存储
嵌入模型：all-MiniLM-L6-v2（默认）
检索方式：纯余弦相似度，无后处理
成本：$0，无需 API 密钥

这一基线出乎意料地强劲。失败案例集中于三类：词汇不匹配（"yoga classes" vs "went this morning"）、隐含偏好（间接表达的偏好）、时间歧义（多会话匹配同一语义）。

混合检索优化（Hybrid v1-v4）

团队针对失败模式逐层优化，每步改进均基于具体错误分析：

版本	R@5	改进点
Raw	96.6%	基线
Hybrid v1	97.8%	添加关键词重叠评分：`fused_score = embedding_score × (1 + keyword_weight × overlap)`
Hybrid v2	98.4%	添加时间邻近性提升：参考日期附近的会话获得距离缩减（最高 40%）
Hybrid v3	99.4%	添加偏好提取：16 个正则模式捕获 "I usually prefer X" 等表达，生成合成文档
Hybrid v4	100%	针对 3 个特定失败问题的定向修复：引号短语提取、人名提升、怀旧模式

Honest Score：98.4% R@5（Held-out 450 题）

Hybrid v4 的 100% 结果存在方法论问题 —— 最后 0.6% 的提升来自对 3 个已知失败问题的定向调优（引号短语 'sexual compulsions'、人名 Rachel/ukulele、怀旧模式 high school reunion），这属于 "teaching to the test"。

团队随后构建了 clean 的 train/test 分割（50 题开发集 / 450 题 held-out），在从未见过的 450 题上验证 Hybrid v4，获得 98.4% R@5、99.8% R@10。这是可诚实报告的生产级指标。

生产级部署参数

基于 MemPalace 的基准测试实践，以下是构建生产级记忆检索系统的可落地参数清单：

存储层配置

向量存储：ChromaDB（默认）或任何实现 mempalace/backends/base.py 接口的后端
嵌入模型选择：
- all-MiniLM-L6-v2：英语场景，~30MB，快速部署
- embeddinggemma-300m：多语言（100+ 语言），推荐用于生产
文档粒度：每会话一个文档（平衡检索精度与存储开销）

混合检索参数

关键词权重：0.1-0.2（避免过度干扰语义相似度）
时间提升阈值：根据会话时间跨度调整，典型值 7-30 天
时间提升系数：0.3-0.4（距离缩减比例）

可选 LLM 重排

模型选择：Claude Haiku（~~$0.001 / 查询）性价比最优，Sonnet（~~$0.003 / 查询）速度略快
触发条件：对 top-20 候选进行重排，仅在需要最高精度时启用
降级策略：API 不可用时自动回退到 Hybrid 模式

索引策略

实时索引：mempalace mine 支持增量摄入
批量回填：mempalace sweep 处理历史会话转录（Claude Code JSONL 等）
合成文档：对偏好表达、关键决策生成辅助索引文档，提升词汇不匹配场景的召回

局限与工程反思

MemPalace 的基准测试报告展现了罕见的工程诚实。团队明确标注了以下局限：

100% 结果的污染性：Hybrid v4 的 100% LongMemEval 分数包含对特定问题的定向修复，不应作为泛化性能声称。Clean held-out 分数 98.4% 才是诚实指标。
LoCoMo 100% 的结构问题：使用 top-k=50 超过单用户会话总数（19-32），使检索步骤被绕过，实际 honest top-10 分数为 88.9%（Hybrid v5）。
检索召回 vs QA 准确率：MemPalace 报告的是检索召回（R@5/R@10），而非端到端问答准确率。Mastra 的 94.87% 是 QA 准确率，与 R@5 不直接可比。

这些标注不是缺陷，而是建立可信工程基准的必要实践。在 AI 系统 benchmark 普遍被质疑的背景下，这种透明性本身就是竞争力。

竞品对比与选型建议

系统	方法	LongMemEval	需 LLM	依赖
MemPalace	原始文本 + 混合检索	96.6% / 98.4%	可选	Python + ChromaDB
Mastra	LLM 观察提取	94.87% (QA)	必需	GPT-5-mini
Hindsight	时间感知向量检索	91.4%	必需	Gemini-3
Mem0	LLM 事实提取	30-45%	必需	LLM API
Supermemory ASMR	Agentic 搜索	~99% (实验)	必需	多模型集成

选型建议：

若需零依赖、隐私优先、离线运行：MemPalace Raw 模式（96.6%）是唯一选择
若需最高检索精度且可接受 API 成本：MemPalace Hybrid + Haiku 重排（~$0.001 / 查询）
若需多跳推理和复杂实体关系：考虑 LLM 提取方案（成本与复杂度更高）

结论

MemPalace 的核心贡献不在于达到了某个百分比，而在于证明了简单基线的力量。当整个行业假设 "记忆必须经过 AI 处理" 时，MemPalace 用 96.6% R@5 表明：原始文本 + 良好嵌入 + 结构化索引，已是一个极强的起点。

这一发现对工程实践的意义是深远的。它建议团队在投入复杂 LLM 提取管道之前，先验证 verbatim 存储的基线效果；它强调信息保留优于过早压缩；它示范了如何通过分层架构（Wing-Hall-Room-Drawer）在简单性与可导航性之间取得平衡。

基准测试的诚实报告同样值得借鉴。公开分数演进路径、标注 contaminated 结果、提供 held-out 验证 —— 这些实践使 MemPalace 的 98.4% 比某些系统的 "100%" 更具可信度。

资料来源

MemPalace GitHub 仓库：https://github.com/MemPalace/mempalace
完整基准测试方法论：https://github.com/MemPalace/mempalace/blob/develop/benchmarks/BENCHMARKS.md
宫殿架构概念文档：https://mempalaceofficial.com/concepts/the-palace.html

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。