Hotdry.
ai-systems

Fara-7B Screen Parsing and Action Execution Engineering

Fara-7B实时屏幕解析与动作执行管道的工程实践,低延迟容错机制与阈值调优参数指南。

Fara-7B 作为微软首款专为计算机使用(Computer Use)设计的 7B 参数 agentic 小模型(SLM),其核心工程在于高效的屏幕解析(screen parsing)和动作执行(action execution)管道。该模型基于 Qwen2.5-VL-7B 视觉语言底座,支持 128k 上下文,通过像素级视觉理解浏览器截图,直接预测坐标动作如 click (x,y)、type () 和 scroll,实现端侧低延迟自动化网页任务,如购物、预约和搜索。不同于依赖可访问性树(Accessibility Tree)的传统方案,Fara-7B 模拟人类视觉交互,避免结构化数据依赖,提升了对复杂页面的鲁棒性。

实时屏幕解析机制

屏幕解析是 Fara-7B 管道的入口,直接从浏览器截图(分辨率固定为 1428x896)中定位可交互元素。模型输入最新 3 张截图 + 完整动作历史文本,输出推理(thinking)后调用工具。视觉定位依赖训练中的辅助任务数据,包括 grounding(元素定位)、captioning(描述)和 VQA(视觉问答),覆盖 14.5 万轨迹、100 万步骤的合成数据集。

工程实践:解析管道采用 “observe-think” 循环,每步等待截图稳定(推荐 wait 1-3 秒)。坐标预测精度阈值设为 ±5 像素,避免边缘点击失败;若元素模糊,使用 mouse_move 预定位后 left_click。证据显示,在 WebVoyager 基准上,Fara-7B 成功率达 73.5%,优于同级 UI-TARS-1.5-7B 的 66.4%,得益于纯视觉路径对动态网页的适应。“Fara-7B 通过视觉感知网页并直接预测坐标动作,不依赖额外解析模型或可访问性树”(微软官方博客)。

落地参数:

  • 截图分辨率:1428x896(固定,避免缩放失真)。
  • 定位阈值:元素中心 ±3-5px,超出重试 1-2 次。
  • 辅助工具:集成 PaddleOCR 中文识别,阈值置信度 > 0.8。

动作执行管道设计

执行管道遵循 “observe-think-act” 模式:观察截图→推理下一步→工具调用。支持 Playwright 标准动作(click、type、scroll)和宏工具(web_search、visit_url)。每步输出 JSON 工具调用,如 {"action": "left_click", "coordinate": [x,y]},管道串行执行,历史累积至 128k 上限。

低延迟优化:端侧部署,利用 Copilot+ PC NPU 加速量化版(VSCode AI Toolkit 下载),平均任务 16.5 步,成本 0.025 美元 / 任务。容错嵌入:动作前检查 critical points(如提交表单),暂停征求用户同意;拒绝不当任务率 82%(WebTailBench-Refusals 111 红队任务)。

证据:在 Online-Mind2Web 上 34.1% 成功率,DeepShop 26.2%,Browserbase 人工验证 WebVoyager 62%(含重试)。管道支持 terminate (status="success/failure") 提前结束,避免无限循环。

落地清单:

  1. 动作序列:mouse_move → left_click → wait (2s) → type (text, press_enter=False)。
  2. 宏工具优先:复杂搜索用 web_search (query),减少步骤。
  3. 历史管理:截取最近 10 步 + 3 截图,压缩旧历史至 512 tokens。

低延迟与容错阈值调优

端侧运行是 Fara-7B 低延迟关键:无云传输,NPU 推理 < 1s / 步。调优焦点:等待阈值、坐标容忍、重试策略。

  • 等待阈值:动态 wait (1-5s),页面加载超时 10s 后 history_back 或 terminate。
  • 坐标容错:首次失败偏移 ±10px 重试 2 次;scroll pixels=±100(正上负下)。
  • 幻觉检测:推理文本中若无坐标 / 工具,fallback 到 pause_and_memorize_fact (fact="元素未定位")。
  • 回滚策略:3 步失败率 > 50% 时 terminate ("failure");critical points 一律暂停,记录日志审计。

监控点:步骤数 > 30 警报;成功率 < 60% A/B 测试底座模型。风险:复杂任务准确性低(微软实验性声明),故沙盒运行(Docker 隔离)。

调优参数表:

参数 默认值 调优范围 目的
wait 时间 2s 1-5s 加载稳定
坐标偏移 ±5px ±3-10px 点击精度
重试次数 2 1-3 容错
步骤上限 30 20-50 防循环
拒绝阈值 82% >80% 安全

实际部署:集成 Magentic-UI 原型(GitHub microsoft/magentic-ui),人机环路编辑计划。未来 RLHF 可进一步提升。

资料来源:微软研究博客(https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/)、Hugging Face 模型卡(https://huggingface.co/microsoft/Fara-7B)、技术报告(https://aka.ms/fara-techreport)。

(正文约 1250 字)

查看归档