Hotdry.

Article

浏览器 Tab 内运行的 AI Agent 运行时架构:rtrvr.ai 的 DOM-Native 策略

深入解析 rtrvr.ai 如何通过 Chrome Extension API 在浏览器 Tab 内实现原生自动化,超越 CDP 与视觉模型的技术瓶颈。

2026-04-18ai-systems

当大多数 AI Web Agent 仍在依赖 Chrome DevTools Protocol(CDP)或截图视觉模型时,rtrvr.ai 走出了一条截然不同的技术路径 —— 直接在浏览器 Tab 内通过 Chrome Extension APIs 执行自动化脚本。这种 DOM-Native 架构不仅解决了传统方案的检测与性能问题,更在 Halluminate Web Bench 中取得了 81.39% 的准确率,平均任务耗时仅 0.9 分钟,单任务成本低至 0.12 美元。本文将从运行时架构设计角度,解析这一技术方案的核心实现。

CDP 的结构性缺陷与替代方案

当前主流浏览器自动化工具 —— 包括 Puppeteer、Playwright、Selenium 4 以及基于它们的云服务(Browserless、BrowserBase)—— 均依赖 CDP 实现对浏览器会话的程序化控制。CDP 最初设计用于调试,其架构中存在多个根本性缺陷:

安全风险层面,CDP 通过 WebSocket 打开调试接口,访问的页面脚本可能利用该端点进行特权升级。跨站脚本攻击(XSS)在 CDP 激活时可获得更高权限,会话令牌与凭证暴露于调试接口。可检测性层面,CDP 注入的 JavaScript 对象(形如 window.cdc_adoQpoasnfa76pfcZLmcfl_*)可被浏览器指纹识别精确标记,navigator.webdriver 标志在 CDP 会话中强制设为 true,反爬虫系统(Cloudflare、PerimeterX、DataDome)对此类模式有专门识别规则。运行稳定性层面,CDP 命令同步阻塞,页面崩溃需完整重启,网络中断直接断开 WebSocket 连接。

rtrvr.ai 采用的替代方案是 Chrome Extension APIs。Extension 是 Chrome 架构中的一等公民,通过 chrome.tabschrome.scriptingchrome.storagechrome.runtime 等 API 提供对浏览器功能的原生访问,无需开启调试端口。Content Scripts 在隔离世界中运行,页面脚本无法检测或干扰自动化行为,通信通过 Chrome 内部消息机制完成而非网络暴露的端点。

浏览器 Tab 内的运行时组件架构

rtrvr.ai 的运行时部署于用户浏览器中,以 Chrome Extension 形式存在,包含三个核心组件:

Content Scripts 直接运行于目标页面上下文,具备 DOM 访问与事件监听能力,可读取页面结构、注入交互、执行 JavaScript 代码。Background Service Worker 负责标签页管理、API 通信、持久化存储与 Firebase Cloud Messaging 推送接收,是 Extension 的中央调度节点。DOM Intelligence Library 是自研的语义解析系统,负责构建 Smart DOM Tree、评估元素可操作性、过滤噪声元素。

当 Agent 接收任务时,运行时的工作流程如下:Background Service Worker 接收任务指令 → 通过 chrome.tabs API 激活目标标签页 → Content Scripts 执行 DOM Intelligence Library 构建语义化 DOM 树 → 结构化数据发送至云端 LLM(Gemini Flash)进行决策 → 决策结果回传后,通过 Content Scripts 的 click()type() 等原生方法执行操作。整个过程不依赖 CDP,无调试指纹,可正常通过 LinkedIn、银行门户、电商站点等具备严格反爬虫机制的网站。

Smart DOM Tree:超越截图视觉的语义提取

与采用截图 + 视觉模型(GPT-4V、Claude Vision)的方案不同,rtrvr.ai 直接遍历活 DOM 而非静态 HTML。DOM Intelligence Library 的处理流水线包括:遍历实时渲染后的 DOM 树(包含 JavaScript 动态修改的内容);构建无障碍感知树结构(利用 ARIA 角色、语义化 HTML5 元素、计算后的无障碍属性);对元素可交互性进行评分(基于数百万页面交互训练得到的启发式规则);剔除脚本、样式、追踪像素等非交互元素;保留父子层级与兄弟关联关系。

这种处理方式的信息保留率远高于视觉方案。视觉 pipeline 的信息衰减路径为:原始 HTML(语义完整)→ 渲染像素(损失约 40%)→ OCR / 视觉识别(再损失约 20%)→ 文本解释(再损失约 10%),最终仅保留约 30% 的原始信息。Smart DOM Tree 路径则保持 100% 信息完整度,LLM 接收的是预先结构化、语义丰富的输入。

这一差异在实际性能上体现明显。在多语言基准测试中,英语站点 rtrvr.ai 达到 82% 准确率,而视觉方案仅 66%;日语文站点的差距更大,视觉方案 41% 对比 rtrvr.ai 的 79%。原因在于视觉模型依赖 OCR 识别字符,日语汉字的复杂笔划、阿拉伯语的 RTL 渲染、CJK 混排页面的上下文混淆均导致识别错误,而文本方案直接处理 Unicode 字符,无此困扰。

多层 Agent 架构与上下文管理

复杂多步骤 Web 工作流的执行需要超越单纯的 DOM 解析。rtrvr.ai 采用三层 Agent 架构:

Orchestrator Agent(编排 Agent) 维持高层目标状态,生成抽象步骤描述,将任务路由至专用子 Agent,管理跨步骤变量绑定。Browser Agent 负责标签页管理、导航、表单填写、内容提取。Sheets Agent 负责 schema 设计、数据写入与格式化。Crawl Agent 负责链接跟踪、分页处理与去重。

传统方案在执行约 5 分钟后会丢失原始目标、重复已完成步骤、虚构不存在的页面状态、无法连接前期步骤输出与后期步骤输入。rtrvr.ai 通过三项技术解决这一问题:

抽象化规划:Orchestrator 生成的指令不指定具体元素定位器,而是描述目标意图。例如「点击 Products 导航项,等待页面加载,找到 id 为 search-input 的搜索框,输入 wireless headphones」是过度指定;「导航至产品区并搜索无线耳机」是抽象化指令,允许子 Agent 灵活处理站点特定变化。

变量绑定机制:步骤输出以结构化变量形式存储,后续步骤通过 ${step1.result.companies} 等语法引用。Planner 无需「记忆」中间数据,上下文窗口始终保持精简,显式变量名防止幻觉引用,类型安全在执行前捕获错误。

最小上下文传播:每个子 Agent 仅接收完成任务所需的最少信息。Browser Agent 在步骤 3 中仅接收目标描述与前置上下文(公司名称、产品类别),不接收完整公司列表、表格 URL 或前期 DOM 树。这防止子 Agent 被无关上下文干扰、重复前期操作、覆盖编排器决策。

结果是将可靠自主运行时间从约 5 分钟延长至 30 分钟以上。

基础设施与部署模型

运行时后端部署于 Google Cloud Run,采用统一架构处理请求路由、Agent 编排、浏览器管理与工具执行。Firebase 提供 Firestore 存储、身份验证、Cloud Messaging 推送与文件存储。LLM 推理使用 Gemini Flash,与 DOM Intelligence Layer 结合实现决策与提取。

关键决策是完全自建浏览器基础设施,不依赖 BrowserBase、Browserless 等第三方服务。自定义 Cloud Run 容器预装 Chrome 与 rtrvr Extension,自研浏览器池化实现高效资源利用,从零自动扩展至数千并发会话 Zero 外部浏览器 API 依赖带来完整执行环境控制、无第三方数据暴露、本地与云端行为一致性、以及更低的运营成本(无会话级浏览器费用)。

对于 API、MCP、WhatsApp 等远程触发场景,系统通过 FCM 推送唤醒用户浏览器中的 Extension:API 请求 → Cloud Run → FCM 推送 → Extension 唤醒 → 执行任务 → 返回结果。此方案支持零配置远程执行、企业防火墙后可用、无需持久连接、移动端触发省电。

工程参数与监控要点

若在自有系统中实现类似架构,以下参数可作为参考基线:Content Script 与 Background Service Worker 通信延迟通常在 50-200 毫秒区间;DOM Intelligence Library 完整遍历中等复杂度页面(约 2000 节点)耗时约 300-800 毫秒;LLM 决策延迟(Gemini Flash)约为 500-1500 毫秒;单个步骤总耗时约 1-3 秒,复杂页面可达 5 秒以上。

监控层面应关注:Extension 安装率与激活率(识别用户侧问题);任务成功率与平均步骤数(评估 Agent 决策质量);DOM 解析异常率(页面结构变化检测);LLM 调用成本与响应延迟(成本控制);浏览器实例健康状态与回收频率(基础设施稳定性)。

rtrvr.ai 的实践表明,在浏览器 Tab 内运行自动化脚本的核心挑战不在于执行能力,而在于选择正确的技术底层。CDP 的调试基因决定了它不适合生产自动化,视觉模型的信息衰减决定了它不适合复杂语义理解。Chrome Extension APIs + Smart DOM Tree 的组合提供了一条可在真实生产环境中部署的技术路径,其 81.39% 的准确率与 0.12 美元的单任务成本是这一架构有效性的直接证明。


资料来源:rtrvr.ai 官方技术博客(DOM Intelligence Architecture)、Halluminate Web Bench 基准测试数据。

ai-systems