让 AI Agent 操控浏览器：browser-use 的网站可访问性抽象设计

在传统浏览器自动化工具中，开发者需要精确指定元素选择器、编写显式的交互脚本，这种方式在动态网页环境中往往脆弱且难以维护。browser-use 的核心设计目标是弥合人类意图与机器执行之间的鸿沟：用户只需用自然语言描述任务，如「填写这份工作申请表并上传简历」，AI Agent 便能理解页面结构、识别交互元素、自主规划执行步骤，并在遇到错误时自动恢复。这种范式转变依赖于一套精心设计的技术架构，从底层的浏览器控制协议到上层的任务调度机制，每一层都有明确的职责边界和工程考量。

三层架构与可访问性抽象层

browser-use 采用三层架构来实现智能化的浏览器控制。最底层是浏览器控制层，基于 Chrome DevTools Protocol（CDP）构建，提供页面导航、元素点击、文本输入、截图捕获、网络请求拦截等原子操作能力。CDP 协议的优势在于它直接与 Chrome 浏览器通信，能够获取页面渲染后的真实状态，绕过传统 DOM 查询在动态网页中的局限性。

中间层是可访问性抽象层，这一层是 browser-use 区别于普通浏览器自动化工具的关键。它将浏览器的可访问性树（Accessibility Tree）与 DOM 结构相结合，构建一个语义化的页面表示。可访问性树原本是为屏幕阅读器设计的，它将页面元素按照功能角色（button、link、input、heading 等）和语义关系组织成树状结构，非常适合 LLM 理解页面意图。browser-use 在此基础上增强了视觉位置信息、计算样式和交互状态，使 Agent 能够理解「点击右上角的登录按钮」这类空间描述，而不仅仅依赖可能频繁变化的 ID 或 class 选择器。

最上层是认知处理层，负责与 LLM 交互。它将当前页面的可访问性表示转化为结构化的上下文信息，结合用户的任务描述，生成下一步操作的高层意图。例如，当 Agent 看到页面显示「请输入验证码」时，认知处理层会推断出需要暂停并等待用户手动输入，或者调用验证码识别服务。这种分层设计使得每一层的变更不会影响其他层：更换底层的浏览器引擎只需适配 CDP 接口，更换 LLM 提供商只需调整认知层的提示词模板。

任务状态机与多标签页协同

在执行复杂任务时，浏览器状态的变化是非线性的：页面可能跳转、弹出对话框、加载新内容、或者用户在另一个标签页执行了操作。browser-use 通过显式的任务状态机来管理这种复杂性。每个 Agent 实例维护一个状态机，其状态包括任务规划、执行中、等待输入、错误恢复等。状态机记录每一步操作的结果、页面快照和执行历史，当某个步骤失败时，Agent 可以回退到上一个安全状态并尝试替代方案。

多标签页协同是另一个工程难点。browser-use 允许 Agent 同时控制多个浏览器上下文，每个上下文可以包含多个标签页。在执行「在多个电商平台比较同款商品价格」这类任务时，Agent 会并行打开多个标签页，导航到不同网站，提取价格信息，最后汇总结果。框架通过标签页索引和唯一标识符来管理操作目标，避免在页面切换过程中发生操作错位。状态机在多标签页场景下会扩展为状态图，记录每个标签页的独立状态和标签页之间的依赖关系。

对于长任务执行，browser-use 建议实现检查点机制。开发者可以在任务关键节点保存当前状态，包括页面 URL、已填写的表单数据、获取的信息摘要等。如果任务因网络超时或页面结构变化而中断，可以从最近的检查点恢复，而不必从头开始。这种设计与容错机制相结合，显著提升了实际生产环境中的任务成功率。

生产环境部署的关键参数

将 browser-use 从开发环境迁移到生产环境时，需要关注几个核心配置。框架提供了 @sandbox() 装饰器来简化部署流程，它封装了浏览器实例管理、资源清理、并行执行等底层细节。对于规模化部署，建议启用云端浏览器基础设施，通过 cloud=True 参数使用 Browser Use Cloud 提供的隐身浏览器，这能有效绕过 Cloudflare 防护和 CAPTCHA 挑战。

代理配置是生产环境的重要参数。通过 cloud_proxy_country_code 指定代理国家，可以解决地理限制和 IP 被封禁问题。对于需要登录态的任务，cloud_profile_id 参数支持将本地认证配置同步到云端浏览器，实现免登录访问。框架还提供了 BROWSER_USE_API_KEY 环境变量来管理 API 凭证，建议配合密钥轮换策略使用。

在资源管理方面，Chrome 浏览器实例的内存占用较高，单个 Agent 通常消耗 300-500MB 内存。生产环境应设置合理的并发限制，并启用自动清理机制。对于高频短任务场景，建议复用浏览器实例而非每次任务都创建新实例；对于低频长任务，则应在任务结束后显式关闭浏览器以释放资源。框架的 @sandbox() 装饰器默认实现了超时控制和异常捕获，开发者可以根据业务需求调整 timeout_seconds 和 max_retries 参数。

任务执行的可观测性同样不可忽视。browser-use 支持在任务执行过程中记录详细的执行日志，包括每一步的操作类型、目标元素、操作结果和页面状态快照。这些日志对于定位任务失败原因、优化提示词设计、评估 Agent 性能都有重要价值。建议将日志接入统一的可观测性平台，设置关键指标告警，如任务成功率、平均执行时长、错误类型分布等。

资料来源：

browser-use GitHub 仓库：https://github.com/browser-use/browser-use
Browser Use 官方文档（生产部署章节）：https://docs.browser-use.com/production