浏览器 Tab 内运行的 AI Agent 运行时架构：rtrvr.ai 的 DOM-Native 策略

当大多数 AI Web Agent 仍在依赖 Chrome DevTools Protocol（CDP）或截图视觉模型时，rtrvr.ai 走出了一条截然不同的技术路径 —— 直接在浏览器 Tab 内通过 Chrome Extension APIs 执行自动化脚本。这种 DOM-Native 架构不仅解决了传统方案的检测与性能问题，更在 Halluminate Web Bench 中取得了 81.39% 的准确率，平均任务耗时仅 0.9 分钟，单任务成本低至 0.12 美元。本文将从运行时架构设计角度，解析这一技术方案的核心实现。

CDP 的结构性缺陷与替代方案

当前主流浏览器自动化工具 —— 包括 Puppeteer、Playwright、Selenium 4 以及基于它们的云服务（Browserless、BrowserBase）—— 均依赖 CDP 实现对浏览器会话的程序化控制。CDP 最初设计用于调试，其架构中存在多个根本性缺陷：

安全风险层面，CDP 通过 WebSocket 打开调试接口，访问的页面脚本可能利用该端点进行特权升级。跨站脚本攻击（XSS）在 CDP 激活时可获得更高权限，会话令牌与凭证暴露于调试接口。可检测性层面，CDP 注入的 JavaScript 对象（形如 window.cdc_adoQpoasnfa76pfcZLmcfl_*）可被浏览器指纹识别精确标记，navigator.webdriver 标志在 CDP 会话中强制设为 true，反爬虫系统（Cloudflare、PerimeterX、DataDome）对此类模式有专门识别规则。运行稳定性层面，CDP 命令同步阻塞，页面崩溃需完整重启，网络中断直接断开 WebSocket 连接。

rtrvr.ai 采用的替代方案是 Chrome Extension APIs。Extension 是 Chrome 架构中的一等公民，通过 chrome.tabs、chrome.scripting、chrome.storage、chrome.runtime 等 API 提供对浏览器功能的原生访问，无需开启调试端口。Content Scripts 在隔离世界中运行，页面脚本无法检测或干扰自动化行为，通信通过 Chrome 内部消息机制完成而非网络暴露的端点。

浏览器 Tab 内的运行时组件架构

rtrvr.ai 的运行时部署于用户浏览器中，以 Chrome Extension 形式存在，包含三个核心组件：

Content Scripts 直接运行于目标页面上下文，具备 DOM 访问与事件监听能力，可读取页面结构、注入交互、执行 JavaScript 代码。Background Service Worker 负责标签页管理、API 通信、持久化存储与 Firebase Cloud Messaging 推送接收，是 Extension 的中央调度节点。DOM Intelligence Library 是自研的语义解析系统，负责构建 Smart DOM Tree、评估元素可操作性、过滤噪声元素。

当 Agent 接收任务时，运行时的工作流程如下：Background Service Worker 接收任务指令 → 通过 chrome.tabs API 激活目标标签页 → Content Scripts 执行 DOM Intelligence Library 构建语义化 DOM 树 → 结构化数据发送至云端 LLM（Gemini Flash）进行决策 → 决策结果回传后，通过 Content Scripts 的 click()、type() 等原生方法执行操作。整个过程不依赖 CDP，无调试指纹，可正常通过 LinkedIn、银行门户、电商站点等具备严格反爬虫机制的网站。

Smart DOM Tree：超越截图视觉的语义提取

与采用截图 + 视觉模型（GPT-4V、Claude Vision）的方案不同，rtrvr.ai 直接遍历活 DOM 而非静态 HTML。DOM Intelligence Library 的处理流水线包括：遍历实时渲染后的 DOM 树（包含 JavaScript 动态修改的内容）；构建无障碍感知树结构（利用 ARIA 角色、语义化 HTML5 元素、计算后的无障碍属性）；对元素可交互性进行评分（基于数百万页面交互训练得到的启发式规则）；剔除脚本、样式、追踪像素等非交互元素；保留父子层级与兄弟关联关系。

这种处理方式的信息保留率远高于视觉方案。视觉 pipeline 的信息衰减路径为：原始 HTML（语义完整）→ 渲染像素（损失约 40%）→ OCR / 视觉识别（再损失约 20%）→ 文本解释（再损失约 10%），最终仅保留约 30% 的原始信息。Smart DOM Tree 路径则保持 100% 信息完整度，LLM 接收的是预先结构化、语义丰富的输入。

这一差异在实际性能上体现明显。在多语言基准测试中，英语站点 rtrvr.ai 达到 82% 准确率，而视觉方案仅 66%；日语文站点的差距更大，视觉方案 41% 对比 rtrvr.ai 的 79%。原因在于视觉模型依赖 OCR 识别字符，日语汉字的复杂笔划、阿拉伯语的 RTL 渲染、CJK 混排页面的上下文混淆均导致识别错误，而文本方案直接处理 Unicode 字符，无此困扰。

多层 Agent 架构与上下文管理

复杂多步骤 Web 工作流的执行需要超越单纯的 DOM 解析。rtrvr.ai 采用三层 Agent 架构：

Orchestrator Agent（编排 Agent） 维持高层目标状态，生成抽象步骤描述，将任务路由至专用子 Agent，管理跨步骤变量绑定。Browser Agent 负责标签页管理、导航、表单填写、内容提取。Sheets Agent 负责 schema 设计、数据写入与格式化。Crawl Agent 负责链接跟踪、分页处理与去重。

传统方案在执行约 5 分钟后会丢失原始目标、重复已完成步骤、虚构不存在的页面状态、无法连接前期步骤输出与后期步骤输入。rtrvr.ai 通过三项技术解决这一问题：

抽象化规划：Orchestrator 生成的指令不指定具体元素定位器，而是描述目标意图。例如「点击 Products 导航项，等待页面加载，找到 id 为 search-input 的搜索框，输入 wireless headphones」是过度指定；「导航至产品区并搜索无线耳机」是抽象化指令，允许子 Agent 灵活处理站点特定变化。

变量绑定机制：步骤输出以结构化变量形式存储，后续步骤通过 ${step1.result.companies} 等语法引用。Planner 无需「记忆」中间数据，上下文窗口始终保持精简，显式变量名防止幻觉引用，类型安全在执行前捕获错误。

最小上下文传播：每个子 Agent 仅接收完成任务所需的最少信息。Browser Agent 在步骤 3 中仅接收目标描述与前置上下文（公司名称、产品类别），不接收完整公司列表、表格 URL 或前期 DOM 树。这防止子 Agent 被无关上下文干扰、重复前期操作、覆盖编排器决策。

结果是将可靠自主运行时间从约 5 分钟延长至 30 分钟以上。

基础设施与部署模型

运行时后端部署于 Google Cloud Run，采用统一架构处理请求路由、Agent 编排、浏览器管理与工具执行。Firebase 提供 Firestore 存储、身份验证、Cloud Messaging 推送与文件存储。LLM 推理使用 Gemini Flash，与 DOM Intelligence Layer 结合实现决策与提取。

关键决策是完全自建浏览器基础设施，不依赖 BrowserBase、Browserless 等第三方服务。自定义 Cloud Run 容器预装 Chrome 与 rtrvr Extension，自研浏览器池化实现高效资源利用，从零自动扩展至数千并发会话 Zero 外部浏览器 API 依赖带来完整执行环境控制、无第三方数据暴露、本地与云端行为一致性、以及更低的运营成本（无会话级浏览器费用）。

对于 API、MCP、WhatsApp 等远程触发场景，系统通过 FCM 推送唤醒用户浏览器中的 Extension：API 请求 → Cloud Run → FCM 推送 → Extension 唤醒 → 执行任务 → 返回结果。此方案支持零配置远程执行、企业防火墙后可用、无需持久连接、移动端触发省电。

工程参数与监控要点

若在自有系统中实现类似架构，以下参数可作为参考基线：Content Script 与 Background Service Worker 通信延迟通常在 50-200 毫秒区间；DOM Intelligence Library 完整遍历中等复杂度页面（约 2000 节点）耗时约 300-800 毫秒；LLM 决策延迟（Gemini Flash）约为 500-1500 毫秒；单个步骤总耗时约 1-3 秒，复杂页面可达 5 秒以上。

监控层面应关注：Extension 安装率与激活率（识别用户侧问题）；任务成功率与平均步骤数（评估 Agent 决策质量）；DOM 解析异常率（页面结构变化检测）；LLM 调用成本与响应延迟（成本控制）；浏览器实例健康状态与回收频率（基础设施稳定性）。

rtrvr.ai 的实践表明，在浏览器 Tab 内运行自动化脚本的核心挑战不在于执行能力，而在于选择正确的技术底层。CDP 的调试基因决定了它不适合生产自动化，视觉模型的信息衰减决定了它不适合复杂语义理解。Chrome Extension APIs + Smart DOM Tree 的组合提供了一条可在真实生产环境中部署的技术路径，其 81.39% 的准确率与 0.12 美元的单任务成本是这一架构有效性的直接证明。

资料来源：rtrvr.ai 官方技术博客（DOM Intelligence Architecture）、Halluminate Web Bench 基准测试数据。

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。