Hotdry.
ai-systems

Fara-7B:高效代理式屏幕解析与动作执行的工程实践

聚焦微软Fara-7B 7B模型在视觉屏幕解析、坐标预测动作执行与本地低延迟代理工作流的工程参数、阈值与部署清单。

Fara-7B 作为微软首款专为计算机使用设计的 7B 参数代理小模型(SLM),通过纯视觉屏幕解析实现高效的 agentic 工作流。其核心在于不依赖可访问性树,仅从浏览器截图预测精确坐标执行点击、输入、滚动等动作,支持本地设备运行,显著降低延迟并提升隐私。该模型在 WebVoyager 基准上达到 73.5% 成功率,平均仅需 16 步完成任务,超越 GPT-4o(65.1%)和同规模 UI-TARS-1.5-7B(66.4%)。

视觉屏幕解析的核心工程机制

Fara-7B 的屏幕解析依赖 Qwen2.5-VL-7B 视觉语言底座,支持 128k 上下文长度。输入包括用户目标文本、最近 3 张截图(分辨率固定 1428x896)和完整动作历史。模型输出链式推理(thinking)后调用工具,如click([x,y])type("text")scroll(pixels)。训练数据来源于 Magentic-One 多代理合成管道:145k 条任务轨迹(100 万步),涵盖定位、VQA、字幕等辅助任务,经三重验证器(对齐、评分、多模态)过滤。

工程要点:

  • 截图预处理:统一分辨率 1428x896,避免畸变。使用最新 3 张截图捕捉动态变化,历史截图仅存文本描述以节省 token。
  • 坐标预测精度:模型直接从像素预测 (x,y),阈值建议误差 < 5 像素。复杂元素(如按钮边缘)需先mouse_move对准光标尖端,再left_click
  • 参数优化:推理时启用 bf16 精度,vLLM 服务器设置--max-model-len 131072 --gpu-memory-utilization 0.9,单 A100/H100 GPU 支持实时 < 2s/step。

动作执行与工作流参数化

动作原语基于 Playwright 标准,支持key(["Enter"])visit_url("url")web_search("query")等宏操作。代理循环:observe-think-act,直至terminate(status="success")或达到 max_steps。

可落地部署清单

  1. 环境准备

    组件 版本 / 要求 作用
    torch >=2.7.1 核心推理
    transformers >=4.53.3 模型加载
    vllm >=0.10.0 高效服务
    Docker WSL2 (Windows) 沙盒隔离

    Copilot+ PC 优先,使用 NPU 量化版(AI Toolkit VSCode 下载)。

  2. 低延迟推理阈值

    • 超时:每步 30s,total 50 步(~16min)。
    • 等待:wait(time=2-5)处理加载延迟。
    • 重试:环境错误重试 3 次,调整坐标 ±3 像素。
  3. 监控与回滚策略

    • 日志全记录:JSON 格式存推理、动作、截图哈希。
    • 关键点(Critical Point)拦截:购置、登录、邮件前强制暂停,用户确认。
    • 安全拒绝:红队测试 82% 拒绝率,监控幻觉( grounding 检查:输出坐标须在截图可见区域)。
    • 回滚:history_back()terminate("failure"),结合人工干预。
  4. 工作流示例:购物代理

    用户:购买Xbox Spongebob手柄。
    步骤1:web_search("Xbox Spongebob controller") → 访问Amazon。
    步骤2:截图解析 → click([800,400]) 添加购物车。
    步骤3:关键点:暂停确认金额。
    步骤4:terminate("success")。
    

    实际部署中,集成 Magentic-UI 实现人机环路。

风险限制与优化路径

局限:复杂任务准确率降至 < 50%,指令遵循偶发错误,易幻觉。风险包括误操作不可逆动作,故强制沙盒 + 审计。未来优化:RLHF 在沙盒强化,底座升级至更强 VL 模型。

通过上述参数,Fara-7B 可在笔记本部署,实现 < 100ms 端到端延迟的屏幕解析代理,适用于企业隐私敏感场景如内部账户管理。

资料来源

  • 微软研究博客:“Fara-7B operates by visually perceiving a webpage and takes actions like scrolling, typing, and clicking on directly predicted coordinates.”
  • HuggingFace 模型卡:训练于合成轨迹,支持 Playwright 动作原语。

(正文约 1200 字)

查看归档