大语言模型在语言理解方面已经达到了令人惊叹的水平,但记忆能力始终是其阿喀琉斯之踵。无论上下文窗口如何扩展,用户始终期待模型能够记住跨越数月甚至数年的对话历史、文档内容和个人偏好。传统的解决方案往往面临向量数据库成本失控、图数据库查询效率低下、键值存储受限于上下文长度等困境。Supermemory 的答案是构建一套混合存储架构,将 PostgreSQL 的关系型能力与边缘缓存相结合,在保持语义检索精度的同时实现企业级的扩展性和低延迟。
Supermemory 的后端架构以 PostgreSQL 作为持久化主存储,利用其向量扩展能力实现语义相似度搜索,同时借助 Drizzle ORM 提供类型安全的查询抽象。系统部署于 Cloudflare Workers 之上,通过 OpenNext 适配器实现无服务器化运行。在存储层级设计上,Supermemory 借鉴了人类认知系统的记忆分层模型:最近访问和频繁使用的内容驻留在 Cloudflare KV 中作为热数据层,提供毫秒级的读写延迟;较久远的记忆则沉降入 PostgreSQL 冷数据层,通过向量索引支持语义检索。这种分层策略有效平衡了检索性能与存储成本,避免了纯向量数据库随数据量增长而出现的性能退化问题。
在检索层面,Supermemory 提供了三种工作模式供开发者选择。Profile 模式返回用户的静态与动态特征画像,适用于无需查询过滤的个性化场景;Query 模式基于查询文本执行语义搜索,返回相似度最高的记忆片段;Full 模式则将前两者结合,同时注入用户画像与检索结果,为复杂对话提供最大化的上下文信息。记忆增强中间件 withSupermemory() 封装了这一逻辑,支持 AI SDK 与 OpenAI SDK 的无缝集成,开发者只需配置记忆捕获策略即可实现透明的记忆注入。系统目标延迟控制在 400 毫秒以内,这一参数在生产环境中通过 KV 热缓存命中率、PostgreSQL 连接池配置以及向量索引的分区策略共同保障。
智能遗忘机制是 Supermemory 区别于传统记忆系统的关键特征。系统并非简单地将所有输入持久化,而是根据内容的访问频率、时间衰减和相关性评分动态调整存储策略。低价值的临时信息会随时间自然淡出,高频访问的重要记忆则持续强化,这一机制有效控制了知识库的噪声水平,避免模型被无关信息淹没。此外,上下文重写功能会基于新对话持续更新记忆摘要,并在看似无关的信息之间建立跨域连接,模拟人类大脑的联想记忆模式。对于需要构建 AI 记忆层的产品团队而言,这套架构提供了开箱即用的 API 与 SDK,将复杂的存储引擎设计与检索优化封装在简洁的接口之后,大幅降低了集成成本。
参考资料:Supermemory 官方系统架构文档与工程博客。