当 AI Agent 从实验环境迈入生产部署,传统的预发布评估体系暴露出一个根本性缺陷:它只能回答「模型能做什么」,却无法回答「模型在实际部署中做了什么」。Anthropic 最近发布的自主性研究基于数百万级真实交互数据揭示了一个关键洞察 —— 观察到的自主性是模型行为、用户策略和产品设计共同作用的结果,这意味着必须在部署后持续度量才能真正理解 Agent 的运行状态。本文将围绕这一研究的核心发现,系统梳理生产环境下 Agent 自主性监控的指标框架与可落地参数。
为什么生产监控无法替代预发布评估
传统的 Agent 评估在受控环境中测试模型能力,但生产环境中的交互动态完全不同。在 Claude Code 的观测数据中,最长单次运行时长从 2025 年 10 月的不足 25 分钟增长到 2026 年 1 月的超过 45 分钟,这种变化平滑地跨越了多个模型版本,说明自主性提升并非单纯来自模型能力进步,而是用户信任积累、任务复杂度变化和产品优化共同作用的结果。预发布评估无法捕捉这种部署后才显现的模式。
更重要的是,用户对 Agent 的监督策略会随着经验积累而演变。Anthropic 的数据显示,新用户(约 50 个会话以内)只有约 20% 的会话启用完全自动批准,而经验丰富的用户(750 个会话以上)这一比例超过 40%。与此同时,经验丰富的用户中断 Agent 的频率也更高 —— 新用户每 100 个回合约中断 5 次,而资深用户约 9 次。这种「既放权更多、又监控更主动」的模式只有在部署后才能观测到,它说明有效的人类监督不等于逐个批准每个动作,而是保持在需要时介入的能力。
自主性监控的核心指标维度
基于 Anthropic 的研究和业界实践,生产环境的 Agent 监控可划分为五个相互关联的维度,每个维度都需要具体的可度量参数。
自主性程度度量
这是最核心的监控对象。Anthropic 使用 1 到 10 的评分体系度量每次工具调用的自主性程度:低分表示 Agent 严格遵循人类显式指令,高分表示 Agent 独立判断目标、选择工具和参数。在生产环境中,建议采用类似的评分体系,但可通过后验分类器自动标注每一次工具调用。关键监控指标包括:平均自主性得分按会话和按工具调用分别统计;完全自主执行的动作占比与需要用户确认的动作占比;自主性得分的分布变化,特别是高分动作(7 分以上)的比例趋势。
从 Claude Code 的数据来看,软件工程领域的 agent 活动占所有工具调用的近 50%,而在高复杂度任务中,人类参与度从 87% 下降到 67%,这说明随着任务复杂度提升,结构上更难实现逐个审批。这一规律可作为监控阈值设计的参考:复杂度较低的任务应监控人类参与率是否低于预期阈值,复杂度较高的任务则应重点监控异常高自主性动作的出现频率。
安全与风险控制
风险评分同样采用 1 到 10 刻度,1 分表示动作失败无后果,10 分表示可能造成重大伤害。Anthropic 发现约 80% 的工具调用至少有一种安全防护措施(如权限限制或人工审批要求),约 73% 有某种形式的人类参与,仅 0.8% 的动作属于不可逆操作(如发送客户邮件)。生产环境应配置的监控指标包括:每次工具调用的风险评分及分布;被阻止的动作或安全干预频率(建议以每千会话不超过特定阈值为基线);按严重程度分类的安全事件数量(可采用 S0 到 S3 级分类);不可逆操作的发生频率和上下文特征。
特别值得强调的是,Agent 自身的不确定性识别也是一种安全机制。Anthropic 的数据显示,在最复杂的任务中,Claude Code 主动暂停询问用户澄清的频率是人类主动中断的两倍以上。这意味着监控体系不仅需要追踪人类干预,还需要追踪 Agent 自身发起停止的频率 —— 如果这一频率突然下降,可能意味着 Agent 对自身不确定性的感知出现了漂移。
任务完成质量
自主性的价值最终体现在任务完成效果上。监控指标应覆盖:任务成功率(需根据具体工作流定义,如工单解决、报告生成并正确发送);因 Agent 错误导致的放弃、重试或回滚比率;使用 LLM-as-Judge 对最终输出进行质量评分(涵盖帮助性、正确性、连贯性和指令遵循度);同类输入的一致性检测,以发现自主性提升后行为变得不稳定的问题。
Anthropic 内部数据显示,从 2025 年 8 月到 12 月,Claude Code 在内部用户最具挑战性任务上的成功率翻倍,同时每会话平均人类干预次数从 5.4 次降至 3.3 次。这说明自主性提升可以与任务质量改善并行发生,但前提是监控体系能够同时捕捉这两个维度的变化。
用户体验与信任
用户如何感知和适应 Agent 的自主性是一个滞后但关键的指标。监控维度包括:用户满意度评分(CSAT 或点赞 / 点踩)按自主性区间分段统计;首次请求到成功结果的时间(高自主性模式应通过吞吐量或速度证明其价值);用户主动选择降级自主性模式的频率;用户在不同自主性档位(1-3 分、4-7 分、8-10 分)下的交互模式差异。
一个重要的监控信号是用户中断模式的转变。如果经验丰富的用户群体突然出现中断率下降,可能意味着他们正在失去对 Agent 的主动监控,需要产品层面介入提醒。
系统资源与成本
标准的基础设施指标仍然重要,但需要按 Agent 和工作流进行精细化切分。关键指标包括:端到端延迟和单步延迟及队列等待时间;每个工作流和每个 Agent 配置的 token 和 API 调用消耗;工具失败、超时和集成错误的错误率,以及这些错误与步数深度和自主性水平的相关性。
异常检测的工程化阈值参数
基于上述指标体系,以下是建议的异常检测阈值参考。这些数值需要根据实际部署规模和产品特性进行校准,但提供了初始基准。
自主性异常检测方面,建议对单会话平均自主性得分设置告警阈值,当超过配置上限(如 7 分)时触发审核;对高分动作(8 分以上)的占比设置滚动窗口监控,若超过基线 20% 则触发复核;对自主性得分的分布进行统计过程控制,若标准差突然扩大可能意味着模型行为漂移。
安全风险方面,建议对风险评分 7 分以上的动作占比设置硬性上限告警;对不可逆动作的实施实施实时拦截加事后审计;对安全干预率设置基线,当每千会话干预次数突然降至基线以下时触发调查(可能意味着防护机制失效或用户过度放权)。
任务质量方面,建议对任务成功率设置质量门禁,低于特定阈值(如 85%)时阻止进一步放量;对错误回滚率设置增量监控,环比增长超过 30% 时触发告警;对 LLM-as-Judge 质量评分设置滚动均值监控,若连续下滑则需要人工审核最近输出的样本。
用户行为方面,建议对用户中断率按经验级别分组监控,资深用户中断率下降超过 25% 时触发关注;对自主性降级请求频率设置监控,突然升高可能意味着最近一次模型更新导致了用户信任下降。
instrumentation 与闭环改进
有效的监控需要底层数据收集基础设施的支撑。每个 Agent 步骤都应作为结构化事件发出,包含动作类型、目标系统、预估风险、预估自主性级别、用户确认状态和执行结果。建议采用分布式追踪框架(如 OpenTelemetry)实现全链路可观测性,并通过会话标识关联同一用户的完整交互历史。
闭环改进机制同样关键:发现的安全风险应转化为回归测试用例;识别到的异常自主性模式应反馈到提示词和策略规则的迭代中;质量下滑的工作流需要重新评估其自主性配置是否合适。Anthropic 特别指出,Agent 自主性的观察是模型、用户和产品三者共同构建的结果,这意味着监控数据的分析结论需要同时考虑这三个维度的变化。
分级自主性部署模式
基于监控指标,建议采用分级自主性模式而非一刀切的开关控制。可划分为「仅建议」模式(Agent 生成方案但所有动作需人工批准)、「建议加确认」模式(Agent 建议动作,用户一键确认或拒绝)、「自动执行加监控」模式(在设定的风险和自主性阈值内自动执行,超出则暂停请求人工决策)。每种模式应绑定到特定的监控指标阈值,当对应指标触发告警时自动降级。
最终,生产环境的自主性监控不是一次性搭建就绪的静态系统,而是一个需要持续迭代的动态过程。随着 Agent 应用场景从软件工程扩展到金融、医疗等更高风险领域,监控体系的完善程度将直接决定部署的安全边界。Anthropic 的研究揭示了当前行业仍处于 Agent 采纳的早期阶段,这恰恰意味着现在正是建立监控基础设施的关键窗口期。
资料来源:Anthropic 研究团队《Measuring AI agent autonomy in practice》(2026 年 2 月),基于 Claude Code 和公开 API 的数百万级交互数据分析。