PA-Bench：Web Agent 在真实个人助理工作流上的评估基准

Web Agent 在自动化浏览器任务上的快速发展，使得评估其在真实世界场景下的能力变得尤为重要。传统的基准如 WebArena 等多聚焦于单一应用内的原子操作，无法捕捉个人助理（Personal Assistant, PA）工作流的多应用协调、长时序推理和错误恢复需求。PA-Bench 作为 Vibrant Labs 推出的新型基准，正是针对这一痛点，通过高保真模拟的 email 和 calendar Web 应用，评估 Agent 在真实 PA 任务上的表现。本文聚焦于 PA-Bench 的核心机制：任务分解、工具选择、错误恢复，以及成功指标的设计，并提供可落地的工程参数和检查清单，帮助开发者快速复现类似评估。

PA-Bench 的设计理念与任务特性

PA-Bench 的核心在于模拟真实 PA 工作流，这些任务通常涉及跨应用的信息提取、决策和执行。例如，一个典型任务要求 Agent 从 Gmail 中读取航班确认邮件，提取关键时间信息，然后在 Google Calendar 中阻塞相应时段。这种任务不是孤立的点击操作，而是长时序（数十步）、多标签切换的复杂流程，需要 Agent 具备全局规划能力。

任务生成采用两步法确保数据一致性：首先构建 “基础世界状态”（base world state），包括用户 persona、联系人、活动时间线，从而衍生出 email 和 calendar 的内容；其次基于场景模板（如旅行协调、会议重调度）生成具体任务和验证器。这种程序化生成避免了手动标注的低效，确保跨应用信息连贯。

观点一：任务分解是 Web Agent 成功的关键起点。在 PA-Bench 中，Agent 需要将高阶目标（如 “处理旅行确认”）分解为子步骤：打开 email → 搜索邮件 → 解析内容 → 切换 calendar → 创建事件 → 验证状态。证据显示，Claude Opus 4.6 在此表现出色，其成功率达 68.8%，得益于明确的分解和事后验证行为。

工具选择与交互标准化

PA-Bench 通过 SDK 提供标准化工具接口，包括模拟管理、模型适配器和实验编排。Agent 的行动空间统一为浏览器原生操作：点击、输入、滚动、标签切换等，所有模型（如 Claude、Gemini、OpenAI CUA）均通过相同 schema 交互。分辨率按提供商推荐设置（如 Claude 推荐 1920x1080），每 episode 最大 75 步。

工具选择考验 Agent 的上下文感知：例如，在 email 中需优先使用搜索框而非逐页滚动；在 calendar 中需识别重叠事件并选择正确操作。Gemini 3 Pro 虽规划正确，但常在工具选用上出错，如追加而非替换文本，导致失败。

落地参数：

行动空间：click(x,y), type(text), keypress(key), scroll(delta), switch_tab(index), get_screenshot()。
标签管理：暴露 switch_tab (0/1/2...)，初始两标签（email + calendar）。
步长限制：75 步 / 任务，超时后强制终止。
分辨率：Claude 1920x1080@2x；Gemini 1280x720；OpenAI 默认。

检查清单（工具选择）：

Agent 是否优先语义工具（如搜索）而非暴力枚举？
标签切换频率 < 总步 20%，避免无效循环？
每步后观察 screenshot 变化，避免重复无效行动。

错误恢复与鲁棒性评估

真实世界中，Web Agent 常遇 UI 变异、操作失效，PA-Bench 通过模拟暴露这些痛点。错误恢复是区分 SOTA 模型的关键：Claude 4.6 当快捷键失效时，会切换到双击选中文本，并事后检查 outbox 确认邮件发送；反之，OpenAI CUA 常卡在标签切换或重复无效行动。

Gemini 3 Flash 在简单任务高效，但多实体推理弱；Gemini Pro 执行微错多（如遗漏会议链接），缺乏验证。平均奖励（partial credit）指标捕捉这些：Claude 0.73，OpenAI 仅 0.25。

观点二：错误恢复依赖 “观察 - 反思 - 重试” 循环。PA-Bench 验证器多检查（multi-check），全通过才计成功，鼓励 partial reward。

落地参数：

恢复阈值：连续 3 步无状态变，触发反思 prompt（如 “上步失败，尝试备选”）。
验证步骤：执行后强制 2-5 步检查最终状态。
回滚策略：检测循环 >10 步，重置子任务。

检查清单（错误恢复）：

失败行动后，是否探索 >2 备选路径？
跨标签信息整合准确率 >80%？
终态验证覆盖所有 verifier checks？

成功指标与当前 SOTA 表现

PA-Bench 双指标：

任务成功率：所有 verifier 通过（严格）。
平均奖励：部分完成分数（0-1）。

当前结果（Vibrant Labs 博客）：“Claude Opus 4.6 68.8% 成功率，Gemini 3 Flash 31.3%，Gemini 3 Pro 25.0%，OpenAI CUA 12.5%。” 这揭示：通用 Agent 在 PA 场景下性能断崖，强调需专用训练。

工程化落地指南

复现 PA-Bench：

环境搭建：用 Playwright/Selenium 模拟 email/calendar，JSON 后端状态。
数据集：生成 50+ 任务，覆盖 5 场景模板。
运行脚本：SDK 式循环：reset sim → run agent → extract state → score。
监控：日志 traces，分析失败模式（reasoning vs execution）。
优化：fine-tune 于失败 traces，加入 RLHF 恢复行为。

风险与限界：模拟忽略真实 Web 噪声（如广告、加载慢）；仅 PA 域，泛化需扩展。未来可加 3+ app、100+ 步。

通过 PA-Bench，我们看到 Web Agent 向生产级 PA 的差距：不止交互，更需智能恢复与验证。开发者可据此参数快速基准自家系统，推动迭代。

资料来源：

Vibrant Labs 博客：https://vibrantlabs.com/blog/pa-bench （任务设计、结果）
HN 讨论：https://news.ycombinator.com/item?id=47157160 （社区反馈）