Supermemory 混合存储架构：PostgreSQL 与边缘缓存的工程实践

大语言模型在语言理解方面已经达到了令人惊叹的水平，但记忆能力始终是其阿喀琉斯之踵。无论上下文窗口如何扩展，用户始终期待模型能够记住跨越数月甚至数年的对话历史、文档内容和个人偏好。传统的解决方案往往面临向量数据库成本失控、图数据库查询效率低下、键值存储受限于上下文长度等困境。Supermemory 的答案是构建一套混合存储架构，将 PostgreSQL 的关系型能力与边缘缓存相结合，在保持语义检索精度的同时实现企业级的扩展性和低延迟。

Supermemory 的后端架构以 PostgreSQL 作为持久化主存储，利用其向量扩展能力实现语义相似度搜索，同时借助 Drizzle ORM 提供类型安全的查询抽象。系统部署于 Cloudflare Workers 之上，通过 OpenNext 适配器实现无服务器化运行。在存储层级设计上，Supermemory 借鉴了人类认知系统的记忆分层模型：最近访问和频繁使用的内容驻留在 Cloudflare KV 中作为热数据层，提供毫秒级的读写延迟；较久远的记忆则沉降入 PostgreSQL 冷数据层，通过向量索引支持语义检索。这种分层策略有效平衡了检索性能与存储成本，避免了纯向量数据库随数据量增长而出现的性能退化问题。

在检索层面，Supermemory 提供了三种工作模式供开发者选择。Profile 模式返回用户的静态与动态特征画像，适用于无需查询过滤的个性化场景；Query 模式基于查询文本执行语义搜索，返回相似度最高的记忆片段；Full 模式则将前两者结合，同时注入用户画像与检索结果，为复杂对话提供最大化的上下文信息。记忆增强中间件 withSupermemory() 封装了这一逻辑，支持 AI SDK 与 OpenAI SDK 的无缝集成，开发者只需配置记忆捕获策略即可实现透明的记忆注入。系统目标延迟控制在 400 毫秒以内，这一参数在生产环境中通过 KV 热缓存命中率、PostgreSQL 连接池配置以及向量索引的分区策略共同保障。

智能遗忘机制是 Supermemory 区别于传统记忆系统的关键特征。系统并非简单地将所有输入持久化，而是根据内容的访问频率、时间衰减和相关性评分动态调整存储策略。低价值的临时信息会随时间自然淡出，高频访问的重要记忆则持续强化，这一机制有效控制了知识库的噪声水平，避免模型被无关信息淹没。此外，上下文重写功能会基于新对话持续更新记忆摘要，并在看似无关的信息之间建立跨域连接，模拟人类大脑的联想记忆模式。对于需要构建 AI 记忆层的产品团队而言，这套架构提供了开箱即用的 API 与 SDK，将复杂的存储引擎设计与检索优化封装在简洁的接口之后，大幅降低了集成成本。

参考资料：Supermemory 官方系统架构文档与工程博客。