分层Agent协作架构的Token优化：Codex多智能体编排的工程实践

单 Agent 架构在复杂软件开发任务中很快触及天花板：上下文窗口过载、缺乏专业化分工、以及协调困难。OpenAI Codex 的多 Agent 编排机制通过分层协作架构，将代码审查、探索验证与外部研究拆分为并行的专用子 Agent，不仅提升了任务完成质量，更在 Token 消耗层面实现了显著优化。

分层架构的 Token 经济学

传统单 Agent 模式将所有任务塞进一个上下文窗口，导致输入 Token 占比高达 53.9%，而代码审查阶段单独消耗 59.4% 的总 Token 量。这种 "把所有鸡蛋放在一个篮子里" 的做法，使得模型不得不在每次交互中重复处理大量无关上下文。

分层协作架构的核心洞察是：不同任务需要不同的推理深度和上下文范围。Codex 通过 TOML 配置文件定义专用 Agent，每个 Agent 携带最小必要上下文运行。例如，只负责代码路径映射的code_explorer可以配置为只读模式，使用轻量级模型；而负责安全审查的reviewer则启用高推理能力模型。这种分工使得每个 Agent 只处理其专业领域内的上下文，避免了单 Agent 架构中上下文的无差别膨胀。

模型分层策略与参数配置

Codex 官方推荐在子 Agent 中使用gpt-5.4-mini，这一选择基于明确的成本效益权衡。gpt-5.4-mini在速度和效率上表现优异，适合处理高并发、相对标准化的任务；而gpt-5.4作为高推理旗舰模型，应保留给需要深度判断的关键 Agent。

一个典型的三层配置如下：

# .codex/config.toml
[agents]
max_threads = 3      # 并发Agent线程数，控制并行度
max_depth = 1        # 嵌套深度限制，防止递归Token爆炸

# .codex/agents/code-explorer.toml
name = "code_explorer"
description = "Read-only explorer that maps code paths"
model = "gpt-5.4-mini"
model_reasoning_effort = "medium"
sandbox_mode = "read-only"

# .codex/agents/reviewer.toml
name = "reviewer"
description = "PR reviewer focused on correctness and security"
model = "gpt-5.4"
model_reasoning_effort = "high"
sandbox_mode = "read-only"

max_depth = 1是关键的 Token 保护参数。虽然提高嵌套深度看似能增加自动化程度，但官方文档明确指出这会导致 "广泛的委托指令转化为重复扇出，增加 Token 使用量、延迟和本地资源消耗"。保持深度为 1，将复杂任务的分解责任交给人类架构师而非 Agent 递归，是控制成本的务实选择。

结构化内存替代原始对话

多轮对话中，原始消息记录的线性增长会导致 Token 消耗呈二次方膨胀。研究表明，LLM 在多轮设置中的性能相比单轮平均下降 39%，主要源于上下文噪声而非能力衰减。

有效的内存分层应包含三个层级：

工作状态（Working State）：当前任务目标、活跃约束、上一步工具输出、下一步行动。这一层在单任务周期内保持，Token 占用小且恒定。

会话摘要（Session Summary）：已做出的决策、探索过的死胡同、未解决问题、压缩的对话要点。在检查点写入一次，替代原始对话记录。

长期事实（Long-term Facts）：已验证的用户偏好、组织策略、可复用的检索模式、过往任务结果。按需查询，默认不加载。

Codex 的developer_instructions字段应指导 Agent 生成结构化摘要而非冗长叙述。例如，要求 Agent 记录 "评估了方案 A 和 B；A 因速率限制失败；B 以 340ms 延迟成功；待解决问题：B 在 1000 并发用户下是否可扩展"，而非简单记录 "选择了方案 B"。

并发控制与审查瓶颈

虽然分层架构降低了单 Agent 的 Token 消耗，但并行 Agent 意味着总 Token 支出可能上升。OpenAI 团队发现，工程师 "在同时管理三到五个会话后就会感到上下文切换痛苦"。因此，max_threads的默认值 6 已经考虑了人类的审查能力上限。

实践中，3 到 5 个并行 Agent 是效率与可管理性的平衡点。Token 成本线性增长，而三个专注的 Agent 通常比五个分散的 Agent 表现更好。添加并行 Agent 的前提是审查者能够跟上其输出节奏 —— 超出个人审查限制的额外 Agent 只会产生堆积的未审阅工作，反而降低整体效率。

可落地的参数清单

基于上述分析，以下是可直接应用的配置参数：

参数	推荐值	说明
`max_threads`	3-5	匹配人类审查能力，避免产出堆积
`max_depth`	1	防止递归导致的 Token 爆炸
`model` (explorer)	`gpt-5.4-mini`	只读探索任务使用轻量模型
`model` (reviewer)	`gpt-5.4`	安全审查使用高推理模型
`sandbox_mode`	`read-only`	审查类 Agent 默认只读，降低风险
`model_reasoning_effort`	`medium`/`high`	按任务复杂度分配推理预算

在实现层面，使用codex exec命令可在 CI/CD 环境中无交互地运行编排工作流：

codex exec --json "Review this branch with code_explorer, reviewer, and web_researcher; wait for all three and summarize" > review.jsonl

效果评估与持续优化

Token 优化的最终目标是 "每 Token 的可靠产出"，而非单纯降低 Token 数。应建立按工作流阶段的成本地图，分别追踪检索、规划、工具调用、执行、审查、重试各阶段的 Token 消耗。关注那 10% 消耗 50% 预算的异常长尾 —— 它们通常源于模糊指令、缺失上下文或无边界循环。

对于重复性工作流，应将成功的 Agent 执行轨迹编译为可复用的执行计划（如 LOOP Skill Engine 模式），这可在高频操作上实现 99.98% 的 Token 节省。缓存稳定的上下文块和验证过的中间结果，配合新鲜度检查，可进一步降低 41-80% 的 API 成本。

分层 Agent 协作架构不是简单的 "多开几个 Agent"，而是通过精心的模型分层、内存结构化和并发控制，将 Token 消耗从线性增长转变为按需分配。当每个 Agent 只携带最小必要上下文、使用最适合的模型、在明确的边界内运行时，整体系统的 Token 效率才能实现质的飞跃。

参考来源

Firecrawl: "Multi-Agent Orchestration With Codex" (2026-06-08)
Glean: "How to optimize token efficiency in agentic systems"
OpenAI Codex Documentation: Subagents and Custom Agents

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。