Cost-aware Multi-Agent PR Review with Adamsreview: Token Budget Routing and Ensemble Allocation

在 Claude Code 生态中引入多 Agent 代码评审时，Token 成本往往是最容易被低估的工程陷阱。当七个并行子 Agent 同时启动、验证关卡层层叠加、自动修复循环反复调用 Opus 回归审查时，一次中等规模的 PR 评审可能轻松烧掉数美元的 API 额度。adamsreview 作为专为 Claude Code 设计的多镜头代码评审流水线，在架构层面内置了成本感知机制 —— 通过 Token 消耗追踪、双 lane 评分路由与廉价优先验证门等手段，将多 Agent 评审的综合成本压缩至传统单 Agent 方案的三分之一。本文从工程实现角度拆解这些机制，提供可直接落地的参数配置与监控清单。

Adamsreview 的多 Agent 评审架构与成本剖面

adamsreview 的核心设计哲学是将评审任务分解为多个职责单一的专业化子 Agent，每个子 Agent 专注于特定维度 —— 正确性、安全性、UX 性能等 —— 再通过去重与交叉验证阶段合并结果。这一并行化设计本身带来了巨大的成本效率优势：当七个 lens（镜头）子 Agent 并行运行时，它们共享一次上下文加载成本，且各自处理的代码片段互不重叠，避免了同一段代码被反复编码进不同 Agent 的上下文窗口。相比之下，单 Agent 评审需要在同一上下文中反复切换关注点，每一次切换都意味着前序上下文的隐式累积与额外的 Token 消耗。

从流水线结构来看，adamsreview 将完整的评审生命周期划分为多个阶段（Phase），每个阶段都有明确的 Token 计入语义。Phase 1 为并行检测阶段，七个 lens 子 Agent 同时运行并输出原始发现问题；Phase 2 为廉价去重阶段，使用轻量级策略合并重复报告；Phase 3 为廉价优先验证门，先用成本较低的模型对发现进行初步分类；Phase 4 为深度验证阶段，对通过第一道关卡的发现进行二次确认；Phase 5 为可选的全向 Opus 交叉审查。这种分阶段设计允许系统在评审早期快速过滤低价值发现，从而避免昂贵模型处理大量噪声。

Token 消耗追踪体系：Sub-agent 与 Orchestrator 的双轨计量

Adamsreview 实现了一套双轨 Token 计量体系，以满足不同精度的成本监控需求。第一轨是 Sub-agent Tokens，这是 adamsreview 自建的精确计数器，记录每个分发的子 Agent（lens、validator、fix agent、post-fix reviewer 等）在本次评审中的 Token 消耗量。这些数据通过 tokens.jsonl 日志文件持久化存储在 ~/.adams-reviews/<repo-slug>/<branch>/<review_id>/ 目录下，每一行对应一次子 Agent 调用，包含模型名称、Token 数量和时间戳。由于日志由流水线显式写入，Sub-agent Tokens 天然避免了跨会话污染 —— 每个 Review ID 下的数据严格属于该次评审。

第二轨是 Orchestrator Tokens，这是一种可选的补充计量手段，用于估算主会话（Claude Code 主进程）在评审期间的间接消耗。实现机制是通过 bin/orchestrator-tokens.sh 脚本扫描 ~/.claude/projects/<cwd-slug>/ 目录下的转录文件，过滤时间戳在 review_started_at 之后的 Assistant turn 并累加其 Token 数量。开启此功能需要在 shell 配置文件中设置 export ADAMS_REVIEW_TALLY_ORCHESTRATOR=1。需要特别注意的是，Orchestrator Tokens 默认关闭，因为 macOS Sequoia 及以上版本会对带有 com.apple.provenance 扩展属性的文件触发隐私提示，而 Claude Code 的转录文件恰好带有此属性。官方推荐的开启方式是通过系统设置授予终端应用完全磁盘访问权限，一劳永逸地消除提示。

对于追求精确成本核算的团队，应当以 Sub-agent Tokens 为主要监控指标，以 Orchestrator Tokens 为辅助上限参考。官方文档明确指出，Orchestrator Tokens 在 review 与 fix 之间存在无关工作的情况下会产生过度计数 —— 例如 review 后在相同工作目录中进行其他开发活动，这些活动的 Token 消耗会被计入 fix 运行时的重新统计窗口。因此，当需要精确审计时，应在评审与修复之间保持工作目录的纯净，或将不相关的工作移至不同的工作树。

双 Lane 评分路由：Deep 与 Light 的成本分层策略

Adamsreview 引入的最关键成本优化机制是双 Lane 分类系统。系统根据发现问题的置信度评分将所有发现分配到两个不同的处理 Lane：Deep Lane 和 Light Lane。Deep Lane 包含高置信度（通常评分 80 分以上）的确认性问题，这些发现会进入后续的自动化修复循环；Light Lane 则包含低置信度、边缘案例或需要人工判断的问题，它们被标记为手动审阅对象，不会触发昂贵的自动化修复流程。

Lane 分类的本质是一种提前路由策略，其成本意义在于：只有 Deep Lane 的发现才会被送入后续 Phase 5.5 的 auto-fix-hint 生成和 Phase 8 的并行修复 Agent 分发。这意味着大量低置信度的噪声发现被提前过滤，不会进入成本最高的修复循环。实际数据表明，在典型的代码评审中，约 60% 到 70% 的原始发现会被分配到 Light Lane，这些发现虽然在评审报告中呈现，但不会触发任何自动化操作，从而节省了原本会被浪费在无价值修复上的 Token 消耗。

评分阈值的可调节性进一步放大了这一机制的灵活性。通过 /adamsreview:walkthrough [threshold] 命令，用户可以动态调整阈值 —— 降低至 30 分意味着将原本被过滤的边缘发现也纳入人工审阅范围，提升至 80 分则进一步收紧自动处理的边界。这种按需调节的能力允许团队在紧急发布期间使用高阈值快速完成评审，在常规迭代中使用低阈值获取更全面的代码质量反馈，而无需为两种场景维护不同的评审配置。

廉价优先验证门：Phase 3 的成本过滤逻辑

Phase 3 的廉价优先验证门（Cheap-then-Deep Validation Gate）是 adamsreview 成本架构中的第二道防线。在并行检测阶段结束后，所有原始发现首先经过一个成本较低的验证步骤，由便宜的模型对发现进行初步分类和去重。这一阶段的目标不是做出最终判断，而是快速识别出明显无效的发现（如已在上游被修复的代码问题、与上下文不符的泛泛建议等）。

经过 Phase 3 过滤后，只有通过初步验证的发现才会进入 Phase 4 的深度验证阶段，由能力更强但成本更高的模型进行二次确认。这种分层验证策略避免了昂贵的深度模型处理大量明显无效的输入，是典型的成本与质量的帕累托优化。实践中，Phase 3 往往能过滤掉 30% 到 50% 的原始发现，这些发现的 Token 消耗被控制在最低水平，而剩余的高质量发现则获得更充分、更昂贵的模型资源。

验证门的另一个隐含价值在于其去重能力。多个 lens 子 Agent 可能在同一代码位置报告相似问题，Phase 3 的验证步骤会识别这些重复并合并它们，从而减少后续阶段的处理量。去重不仅降低了 Token 消耗，还减少了评审报告中的信息冗余，提高了开发者的阅读效率。

Ensemble 模式的成本边界与适用场景

Adamsreview 的 --ensemble 模式是一个值得特别关注的成本放大器。该模式在原有七镜头并行检测的基础上额外增加了 Codex CLI 通道和 PR Bot 评论抓取两个外部发现源，并使用 Ensemble Adapter 机制将外部发现与内部镜头结果统一合并到同一 artifact 中。这意味着 Ensemble 模式实际上运行了更多的检测 Agent 并处理了更多的数据输入，其 Token 消耗显著高于默认模式。

官方文档将 Ensemble 模式定位为可选的高级功能，适用于需要最高评审覆盖度的场景。启用条件是需要安装 codex Claude Code 插件，因为本地 Codex CLI 通过插件的 codex-companion.mjs 调用而非独立 CLI 路径。成本层面，Ensemble 模式的核心额外开销来自 Codex 子 Agent 的 Token 消耗和 PR Bot 评论的解析处理。对于日常迭代中的常规 PR，默认模式通常已经能够提供足够的评审质量；对于安全敏感的变更、重大架构重构或外部依赖引入的场景，Ensemble 模式则提供了额外的发现保障。

值得注意的是，Ensemble 模式的 --effort 参数控制同样适用，但主要作用于 Codex 通道本身。默认的 high effort 已在成本与覆盖度之间取得了良好平衡；除非有特殊需求，不建议贸然提升至 xhigh 以避免不必要的成本膨胀。

自动化修复循环的成本闭环：Fix 阶段的精细控制

adamsreview 的 /adamsreview:fix 命令实现了一个包含回归检测的成本闭环修复流程。当前的 Phase 7.5 机制会在正式分发修复 Agent 之前，先将所有 Light Lane 发现的 auto-fix 提案呈现给用户进行一次性确认。这意味着用户可以在执行高成本修复操作之前，对所有潜在修复进行批量审阅并决定接受或拒绝，避免了修复循环的不可控 Token 消耗。

修复阶段的并行分发机制是成本控制的另一个关键点。Fix 命令会根据修复发现的分组情况并行启动多个子 Agent，每个子 Agent 独立处理一组修复。分组策略由 group-fixes.py 脚本实现，其目标是最大化并行度同时最小化单次调用的上下文长度。较短的上下文意味着每次 Agent 调用的 Token 消耗更可控，而并行分发则通过时间上的重叠减少了整体等待成本。

Phase 9 的回归检测是修复循环中成本最高的环节 —— 修复后的代码会再次经过 Opus 级别的评审以确保没有引入新问题。这一步骤不可省略，但可以通过合理设置修复分组来控制其触发次数：使用 --granular-commits 参数会为每个修复组生成独立的提交，从而可能增加回归检测的次数；默认的单一合并提交则将回归检测限制在一次完整运行中。

落地参数配置与监控清单

基于上述机制分析，以下是可直接落地的工程参数与监控建议。在 Claude Code 的 shell 环境中配置环境变量以启用 Token 追踪：设置 export ADAMS_REVIEW_TALLY_ORCHESTRATOR=1 以开启 Orchestrator Tokens 计量（如已授予终端完全磁盘访问权限）；设置 export ADAMS_REVIEW_REVIEWS_ROOT 可将评审状态存储在自定义路径，便于集中式日志管理。

评审命令的参数选择策略如下：对于代码行数变更少于 50 行的简单 PR，默认模式足以覆盖评审需求；对于涉及核心业务逻辑或安全敏感的变更，使用 --ensemble 获取 Codex 通道的额外覆盖，但建议同时设置 export ADAMS_REVIEW_MAX_ENSEMBLE_TOKENS=50000 等自定义上限以防止意外的成本膨胀；对于紧急 hotfix 场景，使用 --full 强制所有 lens 运行并同时提高 walkthrough 阈值至 80 分以快速过滤低价值发现。

成本监控的最小指标集应包括：每次评审的 Sub-agent Tokens 总数及其与上次评审的环比变化；Deep Lane 与 Light Lane 的发现比例作为评审效率指标；Fix 阶段 Phase 8 分发的 Agent 数量和 Phase 9 回归检测的 Token 消耗。建议在团队内部建立 Token 消耗的周度基线报告，基线测量周期应为至少两周的日常评审数据，取中位数而非平均值作为初始预算参考以减少异常值干扰。

断路器配置方面，当 Sub-agent Tokens 单次评审超过预设阈值（建议初始值设为该类型评审历史 P90）时触发告警并阻止后续 Ensemble 模式运行，直到团队完成成本审查。对于持续高频使用 adamsreview 的团队，建议按季度重新校准预算基线，因为代码库结构和评审习惯的变化会导致 Token 消耗基线的自然漂移。

资料来源：Adamsreview GitHub 仓库（https://github.com/adamjgmiller/adamsreview）提供了完整的多镜头代码评审流水线设计与 Token 追踪实现细节。

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。