基于 Archon 构建可复现 AI 编码评估 Harness 的工程实践

在 AI 编码代理能力快速迭代的当下，如何系统化、规模化地评估不同模型与工作流的实际表现，已成为工程团队面临的核心挑战。传统的人工评测不仅效率低下，且难以保证一致性；而零散的自动化脚本又缺乏可复用性与可追溯性。Archon 作为首个开源的 AI 编码 Harness 构建框架，提供了从工作流定义到执行隔离再到结果持久化的完整基础设施，为构建企业级评测体系提供了可行的工程路径。

核心设计理念：从不确定性到确定性

AI 编码代理的固有问题是结果的不确定性。同样的需求在不同运行时刻可能得到完全不同的实现方案，这种 “模型的情绪” 使得评测变得不可控。Archon 的解决思路是将开发过程抽象为结构化的 YAML 工作流，在其中明确定义各阶段的输入、验证门禁和产出物。AI 节点负责规划、代码生成、审查等需要智能的环节，而确定性节点则负责测试执行、Git 操作、静态分析等可重复的步骤。这种混合架构既保留了 AI 的创造力，又为评测提供了稳定的基准框架。

具体而言，一个典型的评测工作流包含以下关键阶段：任务解析节点接收标准化的评测输入，规划和实现节点驱动 AI 完成代码生成，验证节点执行预设的测试套件，审查节点进行代码质量评估，最终输出包含各项指标的结构化结果。每个节点的状态、耗时、输入输出都被完整记录，为后续分析提供数据基础。

工作流定义与自动化执行

Archon 的工作流采用 YAML 格式声明，支持声明依赖关系、循环控制和人机交互门禁。定义评测工作流时，需要在节点级别指定执行策略。例如，循环节点可以配置 until: ALL_TASKS_COMPLETE 来实现持续迭代直到测试通过，或者 until: APPROVED 来引入人工评审环节。关键的是，评测工作流应当包含确定性验证节点，如 bash: "bun run validate" 这类可重复执行的命令，确保每次运行使用相同的评估标准。

工作流的执行由 Archon 内置的编排器负责调度。编排器维护一个消息路由和上下文管理的核心模块，调度 Workflow Executor 按依赖拓扑顺序执行各节点。每个工作流运行实例都会获得独立的 Git worktree 隔离环境，这意味着可以并行启动多个评测任务而不会产生冲突。这是大规模评测的关键能力 —— 在相同基线环境下同时运行不同模型或不同配置的评测任务，然后对比结果。

执行结果的持久化由 SQLite 或 PostgreSQL 完成，7 张核心表分别记录代码库信息、会话上下文、工作流运行状态、隔离环境、消息历史和工作流事件。这些表构成了完整的审计日志，可以精确追溯任何一次评测的完整执行路径。

评测指标的量化与可追溯性

构建可复现评测体系的核心是将主观的 “代码好坏” 转化为可量化的指标。基于 Archon 框架，可以定义以下几类评测维度：

任务完成率是最直接的指标，记录 AI 是否成功完成了指定的编码任务。通过在工作流中设置明确的完成条件（如测试全部通过、PR 成功创建），可以自动判定任务的最终状态。周期时间衡量从任务下发到完成的完整耗时，这一指标对于评估 AI 编码的效率至关重要。缺陷密度通过验证阶段发现的错误数量来计算，反映代码的初始质量。迭代次数记录 AI 在循环节点中尝试的次数，用于评估其自我纠错能力。

为了实现结果的可追溯性，建议在评测工作流中嵌入结果输出节点，将结构化指标写入数据库并关联到特定的工作流运行 ID。这样，任何一次评测都可以通过查询数据库完整还原当时的输入配置、执行路径和最终结果。同时，版本化的工作流定义本身也应当纳入版本控制，确保评测基准的一致性。

工程落地参数与监控要点

在实际构建评测体系时，以下参数值得关注。并发度控制方面，建议根据硬件资源和被测任务的复杂度，将并行工作流数量设置为 CPU 核心数的 50% 到 80%，过高会导致资源争用影响评测准确性，过低则影响评测效率。超时设置需要为不同类型的节点配置差异化超时策略：AI 生成节点通常设置 5 到 10 分钟，验证节点根据测试套件规模设置为 1 到 5 分钟。隔离清理策略应当确保每次工作流运行结束后自动清理对应的 Git worktree，避免磁盘空间泄漏。

监控层面需要关注几个关键指标：工作流成功率反映整体稳定性，平均执行周期用于容量规划，验证节点失败率揭示 AI 代码生成的质量瓶颈，队列积压长度帮助判断是否需要扩容。Archon 的 Web UI 提供了实时的任务监控面板，但在大规模评测场景下，建议通过数据库查询构建自定义的监控仪表盘。

从评测到持续改进

Archon 框架的真正价值不在于单次评测，而在于构建可持续运行的评估闭环。通过将评测工作流集成到 CI/CD 流水线，可以在模型更新或工作流调整后自动触发回归测试，持续监控能力变化趋势。版本化的工作流定义使得每一次基准更新都有据可查，历史数据可以用于绘制模型能力的演进曲线。

更进一步，可以利用 Archon 的人机交互门禁功能，在关键评审点引入专家判断。AI 生成的代码首先由自动化测试验证通过，随后由人工进行设计层面的评审，这种混合评测模式能够更全面地评估 AI 编码代理的生产可用性。通过结构化的反馈机制，专家评审的结果可以反向输入到工作流优化中，形成持续改进的良性循环。

资料来源：Archon GitHub 仓库 (https://github.com/coleam00/Archon)

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。