在 AI 编码代理能力快速迭代的当下,如何系统化、规模化地评估不同模型与工作流的实际表现,已成为工程团队面临的核心挑战。传统的人工评测不仅效率低下,且难以保证一致性;而零散的自动化脚本又缺乏可复用性与可追溯性。Archon 作为首个开源的 AI 编码 Harness 构建框架,提供了从工作流定义到执行隔离再到结果持久化的完整基础设施,为构建企业级评测体系提供了可行的工程路径。
核心设计理念:从不确定性到确定性
AI 编码代理的固有问题是结果的不确定性。同样的需求在不同运行时刻可能得到完全不同的实现方案,这种 “模型的情绪” 使得评测变得不可控。Archon 的解决思路是将开发过程抽象为结构化的 YAML 工作流,在其中明确定义各阶段的输入、验证门禁和产出物。AI 节点负责规划、代码生成、审查等需要智能的环节,而确定性节点则负责测试执行、Git 操作、静态分析等可重复的步骤。这种混合架构既保留了 AI 的创造力,又为评测提供了稳定的基准框架。
具体而言,一个典型的评测工作流包含以下关键阶段:任务解析节点接收标准化的评测输入,规划和实现节点驱动 AI 完成代码生成,验证节点执行预设的测试套件,审查节点进行代码质量评估,最终输出包含各项指标的结构化结果。每个节点的状态、耗时、输入输出都被完整记录,为后续分析提供数据基础。
工作流定义与自动化执行
Archon 的工作流采用 YAML 格式声明,支持声明依赖关系、循环控制和人机交互门禁。定义评测工作流时,需要在节点级别指定执行策略。例如,循环节点可以配置 until: ALL_TASKS_COMPLETE 来实现持续迭代直到测试通过,或者 until: APPROVED 来引入人工评审环节。关键的是,评测工作流应当包含确定性验证节点,如 bash: "bun run validate" 这类可重复执行的命令,确保每次运行使用相同的评估标准。
工作流的执行由 Archon 内置的编排器负责调度。编排器维护一个消息路由和上下文管理的核心模块,调度 Workflow Executor 按依赖拓扑顺序执行各节点。每个工作流运行实例都会获得独立的 Git worktree 隔离环境,这意味着可以并行启动多个评测任务而不会产生冲突。这是大规模评测的关键能力 —— 在相同基线环境下同时运行不同模型或不同配置的评测任务,然后对比结果。
执行结果的持久化由 SQLite 或 PostgreSQL 完成,7 张核心表分别记录代码库信息、会话上下文、工作流运行状态、隔离环境、消息历史和工作流事件。这些表构成了完整的审计日志,可以精确追溯任何一次评测的完整执行路径。
评测指标的量化与可追溯性
构建可复现评测体系的核心是将主观的 “代码好坏” 转化为可量化的指标。基于 Archon 框架,可以定义以下几类评测维度:
任务完成率是最直接的指标,记录 AI 是否成功完成了指定的编码任务。通过在工作流中设置明确的完成条件(如测试全部通过、PR 成功创建),可以自动判定任务的最终状态。周期时间衡量从任务下发到完成的完整耗时,这一指标对于评估 AI 编码的效率至关重要。缺陷密度通过验证阶段发现的错误数量来计算,反映代码的初始质量。迭代次数记录 AI 在循环节点中尝试的次数,用于评估其自我纠错能力。
为了实现结果的可追溯性,建议在评测工作流中嵌入结果输出节点,将结构化指标写入数据库并关联到特定的工作流运行 ID。这样,任何一次评测都可以通过查询数据库完整还原当时的输入配置、执行路径和最终结果。同时,版本化的工作流定义本身也应当纳入版本控制,确保评测基准的一致性。
工程落地参数与监控要点
在实际构建评测体系时,以下参数值得关注。并发度控制方面,建议根据硬件资源和被测任务的复杂度,将并行工作流数量设置为 CPU 核心数的 50% 到 80%,过高会导致资源争用影响评测准确性,过低则影响评测效率。超时设置需要为不同类型的节点配置差异化超时策略:AI 生成节点通常设置 5 到 10 分钟,验证节点根据测试套件规模设置为 1 到 5 分钟。隔离清理策略应当确保每次工作流运行结束后自动清理对应的 Git worktree,避免磁盘空间泄漏。
监控层面需要关注几个关键指标:工作流成功率反映整体稳定性,平均执行周期用于容量规划,验证节点失败率揭示 AI 代码生成的质量瓶颈,队列积压长度帮助判断是否需要扩容。Archon 的 Web UI 提供了实时的任务监控面板,但在大规模评测场景下,建议通过数据库查询构建自定义的监控仪表盘。
从评测到持续改进
Archon 框架的真正价值不在于单次评测,而在于构建可持续运行的评估闭环。通过将评测工作流集成到 CI/CD 流水线,可以在模型更新或工作流调整后自动触发回归测试,持续监控能力变化趋势。版本化的工作流定义使得每一次基准更新都有据可查,历史数据可以用于绘制模型能力的演进曲线。
更进一步,可以利用 Archon 的人机交互门禁功能,在关键评审点引入专家判断。AI 生成的代码首先由自动化测试验证通过,随后由人工进行设计层面的评审,这种混合评测模式能够更全面地评估 AI 编码代理的生产可用性。通过结构化的反馈机制,专家评审的结果可以反向输入到工作流优化中,形成持续改进的良性循环。
资料来源:Archon GitHub 仓库 (https://github.com/coleam00/Archon)