Opus 4.5长任务horizon测量：多步骤推理与状态保持的工程指标

2025 年 12 月，METR（Model Evaluation & Threat Research）发布的最新评估数据显示，Claude Opus 4.5 在长任务完成能力上取得了显著突破：其 50% 时间 horizon 达到约 4 小时 49 分钟，是之前模型的两倍以上。这一数据不仅标志着 AI 系统在多步骤任务处理能力上的实质性进步，更引发了关于如何科学测量和评估长任务完成能力的深度思考。

METR 时间 horizon 测量方法的核心原理

METR 提出的时间 horizon 测量方法基于一个直观而深刻的洞察：AI 系统在真实世界中的实用价值，很大程度上取决于其能够可靠完成的任务长度。与传统的基准测试不同，这种方法将任务长度（以人类专家完成所需时间衡量）作为核心变量，建立模型成功概率与任务长度的函数关系。

具体而言，METR 的方法包含三个关键步骤：

任务选择与人类时间基准：选择多样化的多步骤软件和推理任务，记录人类专家完成每个任务所需的时间。这些任务涵盖从几分钟到数小时的不同复杂度，确保评估的广度和深度。
模型测试与成功率计算：让目标 AI 模型在相同条件下尝试完成这些任务，记录成功与否的结果。每个任务进行多次尝试，以获得统计上可靠的成功率估计。
Logistic 曲线拟合与 horizon 提取：使用 logistic 回归拟合模型成功概率与人类任务时间的关系曲线。然后，从拟合曲线中提取特定成功概率（如 50%、80%）对应的时间点，即为该模型的时间 horizon。

这种方法的核心优势在于其可解释性和实用性。正如 METR 在其博客文章中指出的：“我们相信，测量 AI 系统能够完成的任务长度（以人类完成时间衡量）是理解当前 AI 能力的有用视角。” 这种方法直接将 AI 性能与人类工作流程的时间尺度联系起来，为预测 AI 在实际工作场景中的影响提供了量化基础。

Opus 4.5 的 4 小时 49 分钟 horizon：工程意义解读

Claude Opus 4.5 达到的 4 小时 49 分钟 50% 时间 horizon（95% 置信区间：1 小时 49 分钟到 20 小时 25 分钟）具有多重工程意义：

1. 多步骤推理能力的实质性提升

4 小时的时间尺度对应着典型的半日工作单元。在这个时间范围内，人类专家通常需要完成包含多个子任务、涉及多次决策和调整的复杂工作。Opus 4.5 能够以 50% 的概率完成这类任务，表明其在以下方面的能力显著增强：

任务分解与规划：能够将复杂目标分解为可执行的子任务序列
中间状态管理：在长时间执行过程中保持对任务状态的跟踪
适应性调整：根据执行结果动态调整后续步骤

2. 80% 时间 horizon 的启示

值得注意的是，Opus 4.5 的 80% 时间 horizon 仅为 27 分钟，与之前模型相似。这一差距揭示了当前 AI 系统的能力分布特征：在较短任务（30 分钟内）上，模型的可靠性提升有限；而在较长任务（数小时）上，进步更为显著。

这种 “长尾进步” 模式可能反映了 AI 系统在基础能力与扩展能力上的不同发展轨迹。基础能力（如单步推理、简单任务执行）可能已接近饱和，而扩展能力（如复杂规划、状态保持）仍有较大提升空间。

3. 置信区间的工程含义

宽达 1 小时 49 分钟到 20 小时 25 分钟的置信区间，反映了当前长任务评估面临的根本挑战：样本量不足。METR 的评估仅基于 14 个 1-4 小时范围内的任务样本，这在统计上难以提供精确的点估计。

从工程角度看，这提示我们需要：

开发更多中等长度（2-8 小时）的评估任务
建立标准化的长任务测试套件
改进评估效率，降低长任务测试的成本

多步骤推理能力的测量指标

要科学评估 AI 系统的多步骤推理能力，需要超越简单的成功率统计，建立多维度的测量指标体系：

1. 任务复杂度量化指标

步骤数量：任务包含的离散操作步骤数
决策分支密度：每单位时间或步骤中的决策点数量
状态空间维度：任务执行过程中需要跟踪的状态变量数量
外部依赖度：任务对外部资源、工具或信息的依赖程度

2. 推理质量评估维度

规划合理性：任务分解和步骤安排的逻辑合理性
错误检测与纠正：识别和修正执行错误的能力
资源优化：时间、计算资源、外部工具的使用效率
目标保持：在长时间执行过程中保持对原始目标的专注

3. 渐进式评估框架

建议采用渐进式评估框架，从简单到复杂逐步测试：

单步任务：测试基础执行能力
短序列任务：3-5 个步骤的简单序列
中等复杂度任务：10-20 个步骤，涉及简单决策
复杂长任务：50 + 步骤，多分支决策，需要状态保持

状态保持与错误恢复的评估方法

长任务执行的核心挑战在于状态保持和错误恢复。传统的基准测试往往忽视这些维度，而它们恰恰是决定 AI 系统实用性的关键因素。

1. 状态保持能力测量

状态保持能力可以通过以下方式评估：

上下文长度测试：测试模型在不同上下文长度下的表现衰减
中断恢复测试：在任务执行过程中引入中断，测试恢复能力
状态一致性检查：检查模型在长时间对话中保持信息一致性的能力
长期依赖测试：设计需要引用早期信息的任务，测试记忆保持

2. 错误恢复机制评估

错误恢复能力是长任务可靠性的关键。评估应关注：

错误检测灵敏度：系统识别自身错误的准确率
恢复策略有效性：不同恢复策略（重试、回退、替代方案）的成功率
渐进式降级：在部分失败情况下继续推进任务的能力
外部验证利用：利用外部工具或人类反馈进行验证的能力

3. 工程化测量参数

为标准化评估，建议定义以下工程化参数：

状态衰减系数：每单位时间或步骤的状态信息丢失率
错误传播距离：单个错误影响后续步骤的数量
恢复时间常数：从错误中恢复所需的平均时间
任务完成度梯度：部分完成情况下的质量评分函数

改进长任务评估的工程化建议

基于当前评估方法的局限性，提出以下改进方向：

1. 任务库扩展与标准化

建立分层任务库：按时间长度（15 分钟、1 小时、4 小时、8 小时）和领域分类
开发任务生成框架：支持自动生成参数化变体的任务
制定任务描述标准：统一的任务描述格式和难度标注

2. 评估基础设施优化

并行测试框架：支持同时测试多个任务变体
增量评估机制：允许部分完成的任务获得部分分数
实时监控接口：在任务执行过程中收集细粒度指标

3. 测量指标体系完善

多维成功标准：除了二进制成功 / 失败，引入完成度、质量、效率等维度
鲁棒性测试：在噪声环境、资源限制等挑战性条件下测试
可扩展性评估：测试任务规模扩大时的性能变化规律

4. 置信度提升策略

增加样本多样性：覆盖更多领域和任务类型
改进统计方法：使用贝叶斯方法处理小样本问题
交叉验证机制：在不同评估环境中验证结果一致性

趋势展望与工程启示

METR 的数据显示，AI 系统能够完成的任务长度正以每 7 个月翻倍的速度增长。如果这一趋势持续，我们将在未来 2-4 年内看到能够可靠完成周级别任务的 AI 系统。

这一趋势对工程实践提出了一系列紧迫问题：

系统架构设计：如何设计能够支持数小时甚至数天连续执行的 AI 系统架构？
资源管理策略：在长时间执行过程中如何有效管理计算资源、内存和外部依赖？
监控与干预机制：如何在不中断任务的情况下监控执行状态，并在必要时进行干预？
安全与可靠性保障：如何确保长任务执行过程中的安全性和可靠性？

结论

Claude Opus 4.5 达到的 4 小时 49 分钟时间 horizon 不仅是技术能力的里程碑，更是评估方法学进步的体现。它揭示了当前 AI 系统在长任务处理能力上的实质性进展，同时也暴露了评估方法的局限性。

未来的评估工作需要从简单的成功率统计，转向更精细的多维度测量。我们需要建立能够准确捕捉多步骤推理、状态保持和错误恢复能力的评估体系，为 AI 系统的工程化应用提供可靠的能力基准。

正如 METR 研究所展示的，科学评估不仅是技术进步的记录者，更是技术发展的引导者。通过改进评估方法，我们不仅能更准确地了解当前 AI 的能力边界，还能为未来的技术发展指明方向。

资料来源：

METR 博客文章《Measuring AI Ability to Complete Long Tasks》：https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
LessWrong 文章《Claude Opus 4.5 Achieves 50%-Time Horizon Of Around 4 hrs 49 Mins》：https://www.lesswrong.com/posts/q5ejXr4CRuPxkgzJD/claude-opus-4-5-achieves-50-time-horizon-of-around-4-hrs-49