在生产环境中部署 AI Agent 时,团队常常面临一个核心问题:如何判断 Agent 在特定场景下的自主性水平?传统观点倾向于将自主性视为模型本身的固定属性,但 Anthropic 最新研究提出了一个根本性的范式转变 —— 自主性是部署环境的涌现属性,需要从系统整体视角进行量化评估。这一框架不仅为安全治理提供了可操作的度量手段,也为工程团队在设计监控体系时提供了明确的落点。
自主性的本质:从模型能力到部署属性
Anthropic 的研究首先澄清了一个关键误解:自主性并非模型权重的固有特征,而是模型行为、用户监督方式与产品交互设计共同作用的结果。同一模型在不同产品配置下可能表现出截然不同的自主性水平。一个在 API 层面看似高度自主的 Agent,可能被嵌入在拥有下游人工审核机制的更大系统中,而这种系统级的监督安排在单个工具调用的遥测数据中往往不可见。因此,测量自主性的基本单元不应是模型本身,而是每次工具调用及其上下文环境 —— 包括系统提示词、对话历史和工具参数。
这一认知转变对工程实践具有深远影响。当自主性被视为部署属性时,团队可以通过调整产品设计(如增加暂停按钮、升级流程、日志透明度)来改变 Agent 的实际自主性水平,而无需重新训练模型。这为安全与效率之间的权衡提供了更灵活的工程空间。
三维度量化评估框架
Anthropic 提出的评估框架将每次工具调用分解为三个可量化的维度,每个维度采用 1 至 10 的离散评分:
风险评分衡量的是该工具调用出错时可能造成的负面影响。评分为 1 表示几乎无负面后果(例如查询公开天气 API),而 10 表示可能导致实质性损害(例如执行金融交易或修改生产数据库)。这个维度为团队提供了按风险级别分类 Agent 行为的基准,也是决定监控强度和人工审核范围的关键依据。
自主性评分反映的是 Agent 在执行该工具调用时独立决策的程度。评分为 1 代表严格遵循人类显式指令(例如用户明确要求 “执行此操作” 后 Agent 才行动),而 10 代表 Agent 自主决定下一步行动(例如基于上下文推断需要调用某个 API 而无需用户确认)。这个维度帮助团队理解 Agent 在任务执行过程中的主动程度。
人工参与度是对人类在当前工具调用中所起作用的估计。Anthropic 承认这一维度较难准确推断,因为上下文可能显示人类主动引导,也可能仅包含历史对话内容。研究团队采取了一个实用的策略:将 “无人参与” 的预测视为可靠信号,而将 “有人参与” 的预测作为上界参考。这种不对称处理在工程上避免了过度依赖不可靠的信号。
工程落地:工具调用级插桩与模型辅助分类
将这一框架转化为生产系统需要具体的工程实现。Anthropic 建议团队在 Agent 系统中实现工具调用级别的精细日志记录,每次调用都应附带丰富的上下文信息:系统提示词的相关片段、对话历史的关键部分、传递给工具的参数以及返回结果。这种细粒度记录为后续的自主性和风险评估提供了必要的输入数据。
在分类方法上,研究建议使用另一个 LLM 来对每次工具调用进行评分和标注,而非依赖人工逐一审查。这种 “模型在环” 的分类策略兼顾了可扩展性与一致性。团队可以设计专门的分类提示词,引导模型从风险、自主性、人工参与度三个维度对工具调用进行评分。为了确保标注质量,建议进行人工抽查验证,并根据验证结果调整提示词或引入校正层。特别值得注意的是,“无人参与” 的预测信号被认为比 “有人参与” 更可靠,这一特性可以在监控告警设计中加以利用。
可落地的自主性指标与阈值建议
基于 Anthropic 框架,工程团队可以构建以下核心指标体系用于日常监控和报表:
平均自主性分数反映 Agent 群体的整体独立决策水平。建议按周计算并跟踪趋势,当分数突然上升超过预设阈值时触发告警。不同业务场景对应不同的可接受范围 —— 内部开发助手的自主性阈值可以适当放宽,而涉及客户敏感操作的客服 Agent 则应设置更严格的上限。
高风险工具调用占比是衡量系统安全态势的关键指标。定义风险评分大于 7 的工具调用为 “高风险”,统计其在总调用中的比例。生产环境的经验建议将这一比例控制在 5% 以下,并针对高风险调用实施强制人工确认或增强日志留存。
自主性 - 风险矩阵分布将自主性评分和风险评分组合形成二维视图,帮助团队识别 “高自主性 + 高风险” 的危险区域。这类调用应当成为安全审查的重点对象,必要时通过产品设计强制降低其自主性评分。
人工干预率衡量人类实际介入 Agent 执行的频率。这里需要区分两种情况:主动干预(用户中止操作、修改参数)和被动确认(用户批准 Agent 建议)。高自主性系统应呈现较低的被动确认率,但如果主动干预率上升,则可能表明用户对系统信任度下降或任务复杂度超出预期。
与其他自主性框架的关系
Anthropic 的工作并非孤立存在,而是处于一个更广泛的自主性研究生态中。Kasirzadeh 与 Gabriel 提出的四维 “智能体画像” 框架从自主性、效能、目标复杂度和泛化能力四个维度刻画 Agent 特征,为理论分析提供了概念工具。“五级自主性” 框架则从用户角色角度划分了从操作员到观察者的五种人机协作模式,强调高能力模型仍可被设计为低自主性系统 —— 只要强制其在每次行动前咨询用户。AURA 框架专注于风险评估,为监管目的提供自主性证书的量化依据。Anthropic 的贡献在于引入了部署层面的遥测和评分机制,使这些理论框架能够在实际系统中落地运作。
工程实践建议
对于正在构建 Agent 系统的团队,建议从以下步骤开始:首先在代码层面实现工具调用的完整上下文记录,确保每次调用都能追溯其决策背景;其次根据 Anthropic 的 1-10 量表设计分类提示词,用模型辅助完成大规模标注;最后建立仪表盘监控上述四项核心指标,根据业务风险偏好设置告警阈值。需要认识到的是,自主性不是越低越好或越高越好的单一目标,而是在具体业务场景下需要精心平衡的设计参数。有效的度量让这种平衡变得可观测、可讨论、可优化。
资料来源:Anthropic Research - Measuring AI agent autonomy in practice