Fara-7B：高效代理式屏幕解析与动作执行的工程实践

Fara-7B 作为微软首款专为计算机使用设计的 7B 参数代理小模型（SLM），通过纯视觉屏幕解析实现高效的 agentic 工作流。其核心在于不依赖可访问性树，仅从浏览器截图预测精确坐标执行点击、输入、滚动等动作，支持本地设备运行，显著降低延迟并提升隐私。该模型在 WebVoyager 基准上达到 73.5% 成功率，平均仅需 16 步完成任务，超越 GPT-4o（65.1%）和同规模 UI-TARS-1.5-7B（66.4%）。

视觉屏幕解析的核心工程机制

Fara-7B 的屏幕解析依赖 Qwen2.5-VL-7B 视觉语言底座，支持 128k 上下文长度。输入包括用户目标文本、最近 3 张截图（分辨率固定 1428x896）和完整动作历史。模型输出链式推理（thinking）后调用工具，如click([x,y])、type("text")、scroll(pixels)。训练数据来源于 Magentic-One 多代理合成管道：145k 条任务轨迹（100 万步），涵盖定位、VQA、字幕等辅助任务，经三重验证器（对齐、评分、多模态）过滤。

工程要点：

截图预处理：统一分辨率 1428x896，避免畸变。使用最新 3 张截图捕捉动态变化，历史截图仅存文本描述以节省 token。
坐标预测精度：模型直接从像素预测 (x,y)，阈值建议误差 < 5 像素。复杂元素（如按钮边缘）需先mouse_move对准光标尖端，再left_click。
参数优化：推理时启用 bf16 精度，vLLM 服务器设置--max-model-len 131072 --gpu-memory-utilization 0.9，单 A100/H100 GPU 支持实时 < 2s/step。

动作执行与工作流参数化

动作原语基于 Playwright 标准，支持key(["Enter"])、visit_url("url")、web_search("query")等宏操作。代理循环：observe-think-act，直至terminate(status="success")或达到 max_steps。

可落地部署清单：

环境准备：

组件版本 / 要求作用

torch >=2.7.1 核心推理

transformers >=4.53.3 模型加载

vllm >=0.10.0 高效服务

Docker WSL2 (Windows) 沙盒隔离

Copilot+ PC 优先，使用 NPU 量化版（AI Toolkit VSCode 下载）。
低延迟推理阈值：
- 超时：每步 30s，total 50 步（~16min）。
- 等待：wait(time=2-5)处理加载延迟。
- 重试：环境错误重试 3 次，调整坐标 ±3 像素。
监控与回滚策略：
- 日志全记录：JSON 格式存推理、动作、截图哈希。
- 关键点（Critical Point）拦截：购置、登录、邮件前强制暂停，用户确认。
- 安全拒绝：红队测试 82% 拒绝率，监控幻觉（ grounding 检查：输出坐标须在截图可见区域）。
- 回滚：history_back()或terminate("failure")，结合人工干预。

组件	版本 / 要求	作用
torch	>=2.7.1	核心推理
transformers	>=4.53.3	模型加载
vllm	>=0.10.0	高效服务
Docker	WSL2 (Windows)	沙盒隔离

工作流示例：购物代理：

用户：购买Xbox Spongebob手柄。
步骤1：web_search("Xbox Spongebob controller") → 访问Amazon。
步骤2：截图解析 → click([800,400]) 添加购物车。
步骤3：关键点：暂停确认金额。
步骤4：terminate("success")。

实际部署中，集成 Magentic-UI 实现人机环路。

风险限制与优化路径

局限：复杂任务准确率降至 < 50%，指令遵循偶发错误，易幻觉。风险包括误操作不可逆动作，故强制沙盒 + 审计。未来优化：RLHF 在沙盒强化，底座升级至更强 VL 模型。

通过上述参数，Fara-7B 可在笔记本部署，实现 < 100ms 端到端延迟的屏幕解析代理，适用于企业隐私敏感场景如内部账户管理。

资料来源：

微软研究博客：“Fara-7B operates by visually perceiving a webpage and takes actions like scrolling, typing, and clicking on directly predicted coordinates.”
HuggingFace 模型卡：训练于合成轨迹，支持 Playwright 动作原语。

（正文约 1200 字）