Context Engineering 参考实现：五层架构与状态持久化机制

在 AI Agent 开发中，上下文管理长期被视为「提示词工程」的附属品 —— 开发者凭借经验手工构造上下文，缺乏系统化的工程抽象。OutcomeOps 开源的 context-engineering 仓库提供了一份可直接运行的全链路参考实现，将上下文视为第一类工程制品进行版本控制、检索与强制执行。本文将从核心抽象、五层架构与状态持久化三个维度，解析这一参考实现的设计要点与可落地参数。

核心抽象：从提示词到工程制品

传统 AI 辅助开发中，上下文以自由文本形式存在于对话窗口里 —— 开发者手工复制代码片段、粘贴文档内容、描述项目规范。这种方式的根本问题在于不可追溯、不可复用、不可治理。当团队规模扩大或项目演进时，上下文的一致性迅速崩塌，AI 输出质量随之波动。

Context engineering 的核心抽象是将上下文提升为「工程制品」。这意味着每一份上下文都应该具备以下属性：可版本化（与代码库同步演进）、可检索（根据请求动态拉取相关片段）、可强制（验证输出是否真正引用了提供的上下文）。这一理念将原本模糊的「提示词优化」转变为结构化的系统工程建设。

该仓库以 Spring PetClinic 项目为运行示例，通过 Architecture Decision Record（ADR）作为组织知识的载体。一个 ADR 记录了特定技术决策的背景、方案与后果，天然具备结构化、可检索的特点。当 AI Agent 需要理解某项技术选型时，直接检索相关 ADR 即可获得准确的历史上下文，而非依赖模型记忆或手工提示。

五层组件模型详解

该参考实现将上下文工程系统划分为五个明确组件，每个组件职责清晰、可独立运行、可对比测试。以下是各层的核心功能与实现要点。

第一层：Corpus（语料库）

Corpus 是整个系统的基础，指组织内部定义思考、构建与决策方式的全部材料。在示例中，这些材料以 ADR 文档形式存在；实际落地时，可以扩展至编码规范、架构文档、技术债务记录、团队约定等各类知识资产。

语料库的关键工程参数包括：文档格式标准化（推荐 Markdown 或结构化 JSON）、元数据附加（创建时间、作者、关联代码路径、有效期）、增量更新机制（仅重新索引变更内容而非全量重建）。实践中建议使用 Content-ID 或文件哈希作为版本标识，确保检索时能精确定位到特定版本的上下文。

第二层：Retrieval（检索）

检索层负责从语料库中识别与当前请求相关的片段。该仓库使用 Amazon Titan 嵌入模型将文档转化为向量，存储于向量数据库中。检索时，系统根据请求的嵌入向量找到最相似的 Top-K 文档。

检索层的核心配置参数包括：嵌入维度（Titan 默认使用 1536 维）、相似度度量方式（余弦相似度或欧氏距离）、Top-K 取值（建议 3 至 5，过多会导致上下文膨胀、推理成本上升）、检索阈值（低于某分数的结果予以过滤，避免引入噪声）。此外，需要关注「Lost in the Middle」问题 —— 当检索结果超过模型上下文窗口的承载能力时，中间的信息容易被忽略。解决方案是优先保留首尾的高相关度结果，并对长文档进行分块处理。

第三层：Injection（注入）

注入层解决的是如何将检索到的上下文有效地传递到模型的「工作记忆」中。这不仅是简单的字符串拼接，更涉及 prompt 结构设计、token 预算分配与上下文顺序安排。

该层的关键参数包括：上下文总量预算（建议控制在模型总 token 窗口的 30% 至 50%，留出空间给系统指令与用户请求）、上下文格式化（采用明确的分隔标记区分不同来源、如 ## 来源：ADR-2024-001）、敏感信息过滤（在注入前自动剔除密钥、凭证、个人身份信息）。Amazon Bedrock 支持的 Claude 模型在处理结构化注入时表现较好，建议在 prompt 中明确要求模型「引用你收到的上下文」以提升后续 enforcement 层的检测准确度。

第四层：Output（输出）

输出层负责生成可审查的产物 —— 代码、Pull Request、文档等。这一层的独特价值在于：它不是简单地将生成任务交给模型，而是要求产物能够追溯到具体的输入上下文。

实现要点包括：输出格式约束（使用 JSON Schema 定义结构化输出，便于程序化解析）、源引用标注（要求模型在生成的代码或文档中注明引用的 ADR 编号或规范来源）、版本绑定（输出应包含所使用上下文的版本标识，以便后续审计）。

第五层：Enforcement（执行）

执行层是 context engineering 区别于传统 RAG 的关键所在。它验证模型生成的内容是否真正反映了所提供的上下文，而非依赖模型自身的记忆或泛化能力。

该层的实现策略通常包括：LLM-as-Judge（使用独立的模型实例评估输出与上下文的一致性，检测是否存在虚构信息或偏离上下文的建议）、引用验证（检查模型声称引用的 ADR 是否确实被注入到上下文中）、PR 门禁（将 enforcement 检查集成到 Pull Request 流程中，未通过一致性验证的代码无法合并）。

状态持久化机制

上下文工程系统的状态持久化涉及三个层面，每一层都需要明确的存储方案与更新策略。

语料库状态对应知识资产的版本控制。建议使用 Git 作为语料库的存储后端，每个 ADR 或规范文档作为独立的文件纳入版本管理。ADR 文件名采用统一前缀加日期的格式（如 adr-2024-001-choose-postgres-for-user-db.md），便于排序与检索。这种方式确保上下文与代码库同步演进，历史版本可追溯、可回滚。

检索索引状态涉及向量数据库的持久化。向量索引可以存储在本地文件系统（FAISS）、云端向量数据库（Amazon OpenSearch Serverless、Pinecone）或自托管的 Milvus 实例中。索引更新策略建议采用「写时复制」模式 —— 生成新索引后再切换引用，避免更新过程中出现不一致。

执行层状态记录每次请求的上下文快照与输出验证结果。这些日志对于审计与持续优化至关重要 —— 团队可以通过分析 enforcement 通过率、引用准确度等指标，发现检索层或注入层的薄弱环节。建议使用结构化日志存储（如 JSON 格式），并保留足够长的保留周期以支持回溯分析。

落地路径与监控要点

对于希望在现有 AI 辅助开发流程中引入 context engineering 的团队，建议分阶段推进。第一阶段聚焦语料库建设，从 ADR 规范开始，先让团队习惯将技术决策文档化 —— 这是所有后续层的基础。第二阶段搭建检索与注入原型，使用轻量级向量库（如 FAISS）验证端到端流程。第三阶段引入 enforcement 层，将上下文一致性检查集成到代码评审流程中。

监控指标应覆盖四个维度：检索相关性（Top-K 结果的平均相似度分数与人工评估准确率）、注入有效性（上下文 token 占比与模型输出的上下文引用率）、输出合规率（enforcement 检查的通过率与拒绝原因分布）、系统延迟（从请求到上下文注入的端到端耗时）。这些指标应纳入日常仪表盘，当出现异常波动时及时告警。

context-engineering 仓库的可贵之处在于它提供了可直接运行的完整示例，每个组件文件夹都包含独立的 requirements.txt 与 README.md。团队可以在本地环境快速复现这套流程，理解每个层的职责与交互方式，然后根据自身技术栈进行调整。这种「可运行文档」的模式，正是 AI 工程化所需的方法论。

参考资料

OutcomeOps/context-engineering 仓库：https://github.com/outcomeops/context-engineering
Anthropic: Effective context engineering for AI agents：https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。