2025 年 12 月,METR(Model Evaluation & Threat Research)发布的最新评估数据显示,Claude Opus 4.5 在长任务完成能力上取得了显著突破:其 50% 时间 horizon 达到约 4 小时 49 分钟,是之前模型的两倍以上。这一数据不仅标志着 AI 系统在多步骤任务处理能力上的实质性进步,更引发了关于如何科学测量和评估长任务完成能力的深度思考。
METR 时间 horizon 测量方法的核心原理
METR 提出的时间 horizon 测量方法基于一个直观而深刻的洞察:AI 系统在真实世界中的实用价值,很大程度上取决于其能够可靠完成的任务长度。与传统的基准测试不同,这种方法将任务长度(以人类专家完成所需时间衡量)作为核心变量,建立模型成功概率与任务长度的函数关系。
具体而言,METR 的方法包含三个关键步骤:
-
任务选择与人类时间基准:选择多样化的多步骤软件和推理任务,记录人类专家完成每个任务所需的时间。这些任务涵盖从几分钟到数小时的不同复杂度,确保评估的广度和深度。
-
模型测试与成功率计算:让目标 AI 模型在相同条件下尝试完成这些任务,记录成功与否的结果。每个任务进行多次尝试,以获得统计上可靠的成功率估计。
-
Logistic 曲线拟合与 horizon 提取:使用 logistic 回归拟合模型成功概率与人类任务时间的关系曲线。然后,从拟合曲线中提取特定成功概率(如 50%、80%)对应的时间点,即为该模型的时间 horizon。
这种方法的核心优势在于其可解释性和实用性。正如 METR 在其博客文章中指出的:“我们相信,测量 AI 系统能够完成的任务长度(以人类完成时间衡量)是理解当前 AI 能力的有用视角。” 这种方法直接将 AI 性能与人类工作流程的时间尺度联系起来,为预测 AI 在实际工作场景中的影响提供了量化基础。
Opus 4.5 的 4 小时 49 分钟 horizon:工程意义解读
Claude Opus 4.5 达到的 4 小时 49 分钟 50% 时间 horizon(95% 置信区间:1 小时 49 分钟到 20 小时 25 分钟)具有多重工程意义:
1. 多步骤推理能力的实质性提升
4 小时的时间尺度对应着典型的半日工作单元。在这个时间范围内,人类专家通常需要完成包含多个子任务、涉及多次决策和调整的复杂工作。Opus 4.5 能够以 50% 的概率完成这类任务,表明其在以下方面的能力显著增强:
- 任务分解与规划:能够将复杂目标分解为可执行的子任务序列
- 中间状态管理:在长时间执行过程中保持对任务状态的跟踪
- 适应性调整:根据执行结果动态调整后续步骤
2. 80% 时间 horizon 的启示
值得注意的是,Opus 4.5 的 80% 时间 horizon 仅为 27 分钟,与之前模型相似。这一差距揭示了当前 AI 系统的能力分布特征:在较短任务(30 分钟内)上,模型的可靠性提升有限;而在较长任务(数小时)上,进步更为显著。
这种 “长尾进步” 模式可能反映了 AI 系统在基础能力与扩展能力上的不同发展轨迹。基础能力(如单步推理、简单任务执行)可能已接近饱和,而扩展能力(如复杂规划、状态保持)仍有较大提升空间。
3. 置信区间的工程含义
宽达 1 小时 49 分钟到 20 小时 25 分钟的置信区间,反映了当前长任务评估面临的根本挑战:样本量不足。METR 的评估仅基于 14 个 1-4 小时范围内的任务样本,这在统计上难以提供精确的点估计。
从工程角度看,这提示我们需要:
- 开发更多中等长度(2-8 小时)的评估任务
- 建立标准化的长任务测试套件
- 改进评估效率,降低长任务测试的成本
多步骤推理能力的测量指标
要科学评估 AI 系统的多步骤推理能力,需要超越简单的成功率统计,建立多维度的测量指标体系:
1. 任务复杂度量化指标
- 步骤数量:任务包含的离散操作步骤数
- 决策分支密度:每单位时间或步骤中的决策点数量
- 状态空间维度:任务执行过程中需要跟踪的状态变量数量
- 外部依赖度:任务对外部资源、工具或信息的依赖程度
2. 推理质量评估维度
- 规划合理性:任务分解和步骤安排的逻辑合理性
- 错误检测与纠正:识别和修正执行错误的能力
- 资源优化:时间、计算资源、外部工具的使用效率
- 目标保持:在长时间执行过程中保持对原始目标的专注
3. 渐进式评估框架
建议采用渐进式评估框架,从简单到复杂逐步测试:
- 单步任务:测试基础执行能力
- 短序列任务:3-5 个步骤的简单序列
- 中等复杂度任务:10-20 个步骤,涉及简单决策
- 复杂长任务:50 + 步骤,多分支决策,需要状态保持
状态保持与错误恢复的评估方法
长任务执行的核心挑战在于状态保持和错误恢复。传统的基准测试往往忽视这些维度,而它们恰恰是决定 AI 系统实用性的关键因素。
1. 状态保持能力测量
状态保持能力可以通过以下方式评估:
- 上下文长度测试:测试模型在不同上下文长度下的表现衰减
- 中断恢复测试:在任务执行过程中引入中断,测试恢复能力
- 状态一致性检查:检查模型在长时间对话中保持信息一致性的能力
- 长期依赖测试:设计需要引用早期信息的任务,测试记忆保持
2. 错误恢复机制评估
错误恢复能力是长任务可靠性的关键。评估应关注:
- 错误检测灵敏度:系统识别自身错误的准确率
- 恢复策略有效性:不同恢复策略(重试、回退、替代方案)的成功率
- 渐进式降级:在部分失败情况下继续推进任务的能力
- 外部验证利用:利用外部工具或人类反馈进行验证的能力
3. 工程化测量参数
为标准化评估,建议定义以下工程化参数:
- 状态衰减系数:每单位时间或步骤的状态信息丢失率
- 错误传播距离:单个错误影响后续步骤的数量
- 恢复时间常数:从错误中恢复所需的平均时间
- 任务完成度梯度:部分完成情况下的质量评分函数
改进长任务评估的工程化建议
基于当前评估方法的局限性,提出以下改进方向:
1. 任务库扩展与标准化
- 建立分层任务库:按时间长度(15 分钟、1 小时、4 小时、8 小时)和领域分类
- 开发任务生成框架:支持自动生成参数化变体的任务
- 制定任务描述标准:统一的任务描述格式和难度标注
2. 评估基础设施优化
- 并行测试框架:支持同时测试多个任务变体
- 增量评估机制:允许部分完成的任务获得部分分数
- 实时监控接口:在任务执行过程中收集细粒度指标
3. 测量指标体系完善
- 多维成功标准:除了二进制成功 / 失败,引入完成度、质量、效率等维度
- 鲁棒性测试:在噪声环境、资源限制等挑战性条件下测试
- 可扩展性评估:测试任务规模扩大时的性能变化规律
4. 置信度提升策略
- 增加样本多样性:覆盖更多领域和任务类型
- 改进统计方法:使用贝叶斯方法处理小样本问题
- 交叉验证机制:在不同评估环境中验证结果一致性
趋势展望与工程启示
METR 的数据显示,AI 系统能够完成的任务长度正以每 7 个月翻倍的速度增长。如果这一趋势持续,我们将在未来 2-4 年内看到能够可靠完成周级别任务的 AI 系统。
这一趋势对工程实践提出了一系列紧迫问题:
- 系统架构设计:如何设计能够支持数小时甚至数天连续执行的 AI 系统架构?
- 资源管理策略:在长时间执行过程中如何有效管理计算资源、内存和外部依赖?
- 监控与干预机制:如何在不中断任务的情况下监控执行状态,并在必要时进行干预?
- 安全与可靠性保障:如何确保长任务执行过程中的安全性和可靠性?
结论
Claude Opus 4.5 达到的 4 小时 49 分钟时间 horizon 不仅是技术能力的里程碑,更是评估方法学进步的体现。它揭示了当前 AI 系统在长任务处理能力上的实质性进展,同时也暴露了评估方法的局限性。
未来的评估工作需要从简单的成功率统计,转向更精细的多维度测量。我们需要建立能够准确捕捉多步骤推理、状态保持和错误恢复能力的评估体系,为 AI 系统的工程化应用提供可靠的能力基准。
正如 METR 研究所展示的,科学评估不仅是技术进步的记录者,更是技术发展的引导者。通过改进评估方法,我们不仅能更准确地了解当前 AI 的能力边界,还能为未来的技术发展指明方向。
资料来源:
- METR 博客文章《Measuring AI Ability to Complete Long Tasks》:https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
- LessWrong 文章《Claude Opus 4.5 Achieves 50%-Time Horizon Of Around 4 hrs 49 Mins》:https://www.lesswrong.com/posts/q5ejXr4CRuPxkgzJD/claude-opus-4-5-achieves-50-time-horizon-of-around-4-hrs-49