Hotdry.

Article

分层Agent协作架构的Token优化:Codex多智能体编排的工程实践

通过Fable编排审查与Codex构建的分层协作架构,实现AI agent工作流token消耗降低80%的工程策略与实现机制,涵盖模型分层、内存结构化与并发控制参数。

2026-06-13ai-systems

单 Agent 架构在复杂软件开发任务中很快触及天花板:上下文窗口过载、缺乏专业化分工、以及协调困难。OpenAI Codex 的多 Agent 编排机制通过分层协作架构,将代码审查、探索验证与外部研究拆分为并行的专用子 Agent,不仅提升了任务完成质量,更在 Token 消耗层面实现了显著优化。

分层架构的 Token 经济学

传统单 Agent 模式将所有任务塞进一个上下文窗口,导致输入 Token 占比高达 53.9%,而代码审查阶段单独消耗 59.4% 的总 Token 量。这种 "把所有鸡蛋放在一个篮子里" 的做法,使得模型不得不在每次交互中重复处理大量无关上下文。

分层协作架构的核心洞察是:不同任务需要不同的推理深度和上下文范围。Codex 通过 TOML 配置文件定义专用 Agent,每个 Agent 携带最小必要上下文运行。例如,只负责代码路径映射的code_explorer可以配置为只读模式,使用轻量级模型;而负责安全审查的reviewer则启用高推理能力模型。这种分工使得每个 Agent 只处理其专业领域内的上下文,避免了单 Agent 架构中上下文的无差别膨胀。

模型分层策略与参数配置

Codex 官方推荐在子 Agent 中使用gpt-5.4-mini,这一选择基于明确的成本效益权衡。gpt-5.4-mini在速度和效率上表现优异,适合处理高并发、相对标准化的任务;而gpt-5.4作为高推理旗舰模型,应保留给需要深度判断的关键 Agent。

一个典型的三层配置如下:

# .codex/config.toml
[agents]
max_threads = 3      # 并发Agent线程数,控制并行度
max_depth = 1        # 嵌套深度限制,防止递归Token爆炸
# .codex/agents/code-explorer.toml
name = "code_explorer"
description = "Read-only explorer that maps code paths"
model = "gpt-5.4-mini"
model_reasoning_effort = "medium"
sandbox_mode = "read-only"
# .codex/agents/reviewer.toml
name = "reviewer"
description = "PR reviewer focused on correctness and security"
model = "gpt-5.4"
model_reasoning_effort = "high"
sandbox_mode = "read-only"

max_depth = 1是关键的 Token 保护参数。虽然提高嵌套深度看似能增加自动化程度,但官方文档明确指出这会导致 "广泛的委托指令转化为重复扇出,增加 Token 使用量、延迟和本地资源消耗"。保持深度为 1,将复杂任务的分解责任交给人类架构师而非 Agent 递归,是控制成本的务实选择。

结构化内存替代原始对话

多轮对话中,原始消息记录的线性增长会导致 Token 消耗呈二次方膨胀。研究表明,LLM 在多轮设置中的性能相比单轮平均下降 39%,主要源于上下文噪声而非能力衰减。

有效的内存分层应包含三个层级:

工作状态(Working State):当前任务目标、活跃约束、上一步工具输出、下一步行动。这一层在单任务周期内保持,Token 占用小且恒定。

会话摘要(Session Summary):已做出的决策、探索过的死胡同、未解决问题、压缩的对话要点。在检查点写入一次,替代原始对话记录。

长期事实(Long-term Facts):已验证的用户偏好、组织策略、可复用的检索模式、过往任务结果。按需查询,默认不加载。

Codex 的developer_instructions字段应指导 Agent 生成结构化摘要而非冗长叙述。例如,要求 Agent 记录 "评估了方案 A 和 B;A 因速率限制失败;B 以 340ms 延迟成功;待解决问题:B 在 1000 并发用户下是否可扩展",而非简单记录 "选择了方案 B"。

并发控制与审查瓶颈

虽然分层架构降低了单 Agent 的 Token 消耗,但并行 Agent 意味着总 Token 支出可能上升。OpenAI 团队发现,工程师 "在同时管理三到五个会话后就会感到上下文切换痛苦"。因此,max_threads的默认值 6 已经考虑了人类的审查能力上限。

实践中,3 到 5 个并行 Agent 是效率与可管理性的平衡点。Token 成本线性增长,而三个专注的 Agent 通常比五个分散的 Agent 表现更好。添加并行 Agent 的前提是审查者能够跟上其输出节奏 —— 超出个人审查限制的额外 Agent 只会产生堆积的未审阅工作,反而降低整体效率。

可落地的参数清单

基于上述分析,以下是可直接应用的配置参数:

参数 推荐值 说明
max_threads 3-5 匹配人类审查能力,避免产出堆积
max_depth 1 防止递归导致的 Token 爆炸
model (explorer) gpt-5.4-mini 只读探索任务使用轻量模型
model (reviewer) gpt-5.4 安全审查使用高推理模型
sandbox_mode read-only 审查类 Agent 默认只读,降低风险
model_reasoning_effort medium/high 按任务复杂度分配推理预算

在实现层面,使用codex exec命令可在 CI/CD 环境中无交互地运行编排工作流:

codex exec --json "Review this branch with code_explorer, reviewer, and web_researcher; wait for all three and summarize" > review.jsonl

效果评估与持续优化

Token 优化的最终目标是 "每 Token 的可靠产出",而非单纯降低 Token 数。应建立按工作流阶段的成本地图,分别追踪检索、规划、工具调用、执行、审查、重试各阶段的 Token 消耗。关注那 10% 消耗 50% 预算的异常长尾 —— 它们通常源于模糊指令、缺失上下文或无边界循环。

对于重复性工作流,应将成功的 Agent 执行轨迹编译为可复用的执行计划(如 LOOP Skill Engine 模式),这可在高频操作上实现 99.98% 的 Token 节省。缓存稳定的上下文块和验证过的中间结果,配合新鲜度检查,可进一步降低 41-80% 的 API 成本。

分层 Agent 协作架构不是简单的 "多开几个 Agent",而是通过精心的模型分层、内存结构化和并发控制,将 Token 消耗从线性增长转变为按需分配。当每个 Agent 只携带最小必要上下文、使用最适合的模型、在明确的边界内运行时,整体系统的 Token 效率才能实现质的飞跃。


参考来源

  • Firecrawl: "Multi-Agent Orchestration With Codex" (2026-06-08)
  • Glean: "How to optimize token efficiency in agentic systems"
  • OpenAI Codex Documentation: Subagents and Custom Agents

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com