Hotdry.
ai-systems

深入解析 Anthropic Agent Autonomy Benchmark:测试任务、自动化评分与验证机制

聚焦 benchmark 的具体测试任务设计、1-10 分制评分细节与可复现性验证,为工程团队提供可落地的参数与实现参考。

当业界热衷于讨论 AI Agent 的能力边界时,一个更为根本的问题往往被忽视:这些 Agent 在真实部署环境中究竟有多独立?它们的风险暴露程度如何?传统的前置评估(pre-deployment evaluation)只能告诉我们 Agent 在受控场景下能做什么,却无法揭示实际使用中的行为模式。Anthropic 在近期发布的「Measuring AI Agent Autonomy in Practice」研究报告中,提出了一套完整的 Agent 自主性测量方法论,其核心并非构建一个静态的基准测试集,而是通过大规模真实流量分析来量化 Agent 的 autonomy 与 risk 谱系。本文将深入拆解该方法论中的任务设计、自动化评分算法以及可复现性验证机制,为希望构建类似监控体系的工程团队提供可直接参考的实现细节。

任务定义与数据采集策略

Anthropic 对「Agent」采用了一个操作性定义:任何配备了工具、能执行动作的 AI 系统均可视为 Agent。这一定义与 Russell 和 Norvig1995 年的经典定义以及 Simon Willison 近年来提出的「在循环中运行工具以达成目标的系统」相兼容。值得注意的是,autonomy 并非模型的固有属性,而是部署场景、用户监督策略与产品设计三者共同演化的结果。正因为如此,Anthropic 选择不依赖单一基准测试集,而是从两个互补的数据源进行大规模采集。

第一个数据源是公共 API 流量。Anthropic 平台每天处理数以百万计的工具调用(tool calls),覆盖数千个不同的客户部署场景。研究者并未尝试推断客户的 Agent 架构,而是将分析粒度定于单个工具调用层面。这种方法的优势在于能够获得跨部署场景的广度观察,但由于每个工具调用是独立分析的,无法重建完整的行为序列。第二个数据源是 Claude Code——Anthropic 自研的编程 Agent。由于是自营产品,研究者能够将跨请求链接为完整的会话,从而深入分析 autonomy 的时间维度,例如一次运行能持续多久、用户在何时介入、触发中断的典型因素是什么。这两种数据源形成了广度与深度的互补:API 流量揭示了行业分布与风险谱系,Claude Code 则呈现了用户行为随经验积累的演化规律。

自动化评分算法:双维度 1-10 分制

整个评估体系的核心是两个 1-10 分制的评分维度:风险分数(Risk Score)与自主性分数(Autonomy Score)。风险分数的含义是:如果该动作出错,后果的严重程度能有多大。分数 1 代表几乎无后果(例如修改一行代码的格式),分数 10 则代表可能造成实质性伤害(例如自主部署安全补丁或执行金融交易)。自主性分数衡量的是 Agent 相对于人类显式指令的独立程度。分数 1 意味着 Agent 严格遵循人类的详细指示,分数 10 则代表 Agent 在几乎没有人类介入的情况下自行决策和执行。

评分过程并非基于预设的硬规则,而是采用「模型即评判者」(model-as-judge)范式:由 Claude 本身对每个工具调用进行分类。分类时输入的上下文包括三个关键部分:系统提示词(system prompt)、对话历史以及工具调用的具体上下文。研究者之所以选择让模型自主判断,而非手工编写规则,是因为 Agent 的行为模式千变万化,试图穷举所有边界情况是不现实的。Claude 的通用判断能力使其能够在给定上下文中捕捉到可能超出预设规则范围的细微差别。

需要特别强调的是,这两个分数被明确设计为「比较性指标」而非「精确测量值」。研究者并未为每个分数等级定义刚性的判定标准,而是让评判模型依据整体上下文做出相对判断。这意味着分数更适合用于在不同动作之间进行排序和分组,而非对单个分数进行绝对解释。例如,我们可以说「风险分数为 6 的动作比风险分数为 3 的动作更具危险性」,但若要问「风险分数 6 究竟意味着什么」,则缺乏精确的量化定义。

在具体实现层面,评分算法首先将相似的工具调用聚类,然后计算每个聚类的平均风险分数与平均自主性分数。聚类的依据包括工具类型、调用上下文以及动作意图等特征。通过这种方式,研究者能够识别出高风险聚类(如涉及敏感安全操作、财务交易、医疗信息的动作)和高自主性聚类(如自动化系统监控、机器学习模型提交等)。根据 Anthropic 公布的分析结果,约 80% 的工具调用至少具有一种安全防护机制(如权限限制或人工审批要求),约 73% 有某种形式的人类参与,而仅有 0.8% 的动作被判定为不可逆的。

可复现性验证与局限性

自动化评分系统的可信度取决于评判模型的准确性。为此,Anthropic 采取了两个层面的验证策略。首先,研究团队对一部分样本进行了人工标注,并将人工标注结果与 Claude 的分类结果进行对比。验证结果显示,当 Claude 判定某个工具调用「不涉及人类参与」时,其准确率非常高;但在判定「存在人类参与」时,Claude 有时会过度估计,即把不存在主动引导的情况也计入了人类参与。出于这一原因,研究者将人类参与比例视为「上限估计」而非精确值。

其次,研究者利用内部数据对部分结论进行了交叉验证。例如,Claude Code 的内部使用数据提供了任务成功率与人工介入频率的客观记录,这些记录与基于 API 流量的分析结论形成了相互印证。这种双重验证机制有效降低了单一数据源可能带来的偏差。

然而,必须清醒认识到该方法论固有的局限性。由于隐私与商业机密限制,研究者无法对 API 层面的工具调用进行人工逐条检查,只能依赖模型分类的结果。公共 API 的分析局限于单个工具调用层面,无法重建完整的 Agent 会话轨迹,这意味着某些需要跨步骤推理才能判定的 autonomy 特征可能被低估。此外,该分析仅覆盖 Anthropic 平台上的流量,基于其他模型供应商构建的 Agent 可能呈现截然不同的行为模式。最后,分析结果对应的时间窗口是 2025 年末至 2026 年初,Agent 生态正在快速演进,长期趋势仍需持续监测。

工程化落地的关键参数

对于希望在自有系统中复现类似评估能力的团队,以下参数值得参考。评分采用 1-10 分制时,建议使用比较性解释而非绝对解释,即重点关注分数的相对排序而非单个分数的精确含义。上下文输入应至少包含系统提示词、对话历史与工具调用参数三者,缺少任何一部分都可能导致分类准确率下降。人工验证样本的占比建议不低于总体的 5%,且应重点覆盖边界情况(如中低分数区间的动作)。由于 Claude 会高估人类参与度,在计算人类介入率时应将其视为上限值而非精确值。

从更宏观的视角看,Anthropic 的方法论揭示了一个关键洞察:仅靠前置评估不足以保障 Agent 的安全部署。前置评估回答的是「Agent 能做什么」,而实时监控回答的是「Agent 实际在做什么」。两者互补才能构成完整的 Agent 安全保障体系。随着 Agent 逐步渗透至金融、医疗、网络安全等高风险领域,建立类似的自主性与风险监控基础设施将成为工程团队的必修课题。

资料来源:本文核心事实与数据均引自 Anthropic 研究团队于 2026 年 2 月发布的「Measuring AI Agent Autonomy in Practice」报告及其技术附录。

查看归档