Fara-7B 是微软推出的 7B 参数小型语言模型(SLM),专为 “agentic 计算机使用”(Computer Use Agent, CUA)场景设计。它通过视觉解析屏幕截图,直接预测并执行鼠标点击、键盘输入和滚动等操作,实现自主任务执行,而无需依赖可访问性树(Accessibility Tree)或多模型协作。这种单模型架构在端侧设备上运行,低延迟且隐私友好,特别适合网页自动化任务如表单填写、信息搜索和账户管理。
核心观点在于将 Fara-7B 的屏幕解析与动作预测能力与键鼠仿真工具深度集成,形成闭环代理系统。传统代理依赖大模型提示或 HTML 解析,易受页面动态变化影响;Fara-7B 则模拟人类视觉,直接从像素级截图输出坐标级动作(如 click (1024,768)),结合 Playwright 实现精确仿真。证据显示,在 WebVoyager 基准上,Fara-7B 通过率达 73.5%,平均仅需 16 步完成任务,优于同级 UI-TARS-1.5-7B(66.4%,41 步),并接近 GPT-4o 配置的复杂系统。该模型基于 Qwen2.5-VL-7B,支持 128k 上下文,每次预测融合用户指令、完整动作历史及最近 3 张截图,确保多步任务连续性。
工程化集成需关注以下关键参数与清单,确保稳定性和安全性。
1. 模型部署与推理参数
- 硬件要求:端侧优先 Copilot+ PC(NPU 加速),最低 16GB RAM + GPU(RTX 3060+)。量化版本(4-bit/8-bit)通过 VSCode AI Toolkit 下载,推理延迟 <500ms / 步。
- 上下文管理:max_tokens=4096,temperature=0.1(减少幻觉),top_p=0.9。输入格式:用户任务 + 动作日志(JSON) + 3 张 1024x768 截图(间隔 1s 捕获)。
- 工具调用:预测前输出 “thinking” 推理,后跟工具如
click(x,y)、type(text)、scroll(dy)、web_search(query)。解析输出使用正则:click\((\d+),(\d+)\)提取坐标。 - 重试机制:失败阈值 3 次(坐标偏差 >10px 或无响应),回滚至上步截图 + 重新推理。成功率监控:>80% 否则微调提示。
2. 屏幕解析与动作预测集成
Fara-7B 内置视觉解析,无需额外 OmniParser 等工具。流程:
- 浏览器(Chromium via Playwright)全屏截图(png,压缩率 0.8)。
- 输入模型:预测下一步动作 + 置信度(>0.7 执行)。
- 坐标映射:屏幕绝对坐标,视口缩放 factor=1.0(禁用 zoom)。 证据:在 WebTailBench 新基准,Fara-7B 领先同级,处理动态页面(如电商比较)准确率高。
参数优化:
- 截图频率:每动作后 500ms 捕获,避免模糊。
- 预测提示模板:
当前任务:{task} 历史动作:{history} 最新截图:{screenshot1,2,3} Thinking: ... Action: click(1234,567) 或 type("hello") 或 scroll(100) - 幻觉过滤:post-process 检查动作有效性(e.g., x,y 在视口中),无效则 “noop”。
3. 键鼠仿真:Playwright 配置清单
使用 Playwright 桥接 Fara-7B 输出,实现 headless/non-headless 仿真。
const { chromium } = require('playwright');
const browser = await chromium.launch({ headless: false }); // 调试用 true
const page = await browser.newPage();
await page.setViewportSize({ width: 1920, height: 1080 });
- 动作执行参数:
动作 参数 阈值 / 延迟 click(x,y) force=true, timeout=2000ms 偏差 < 5px type(text) delay=50ms / 键 maxLength=512 scroll(dy) steps=10 key(code) 如 Enter sharp=true - 宏扩展:
web_search(q)→ 新 tab + 输入 + Enter,timeout=5s。 - 监控点:日志所有动作(JSONL),Prometheus 指标:steps_per_task、success_rate、latency/step。警报:连续失败 > 5 或 OOM。
4. 安全与回滚策略
- 关键点(Critical Points):训练内置,敏感操作(如提交表单、支付)前暂停,UI 弹窗确认。拒绝率 82%(WebTailBench-Refusals)。
- 沙盒隔离:Docker/WSL2 运行 Playwright,--no-sandbox,网络白名单(仅目标域)。
- 回滚清单:
- 任务失败 → 重置浏览器 + 简化指令。
- 幻觉检测 → 坐标置信 < 0.5 或无效工具 → 用户干预。
- 超时 >30s / 步 → 强制 noop + 截图刷新。
- 生产阈值:任务成功 > 60%,逐步从简单(如搜索)到复杂(如购物)。
实际落地示例:自动化 “搜索航班 + 预订”——Fara-7B 解析首页 → 点击搜索框 → 输入日期 → 滚动结果 → 关键点确认价格。测试中,端侧笔记本(i7+RTX)全流程 <2min。
局限:复杂嵌套页面准确率降 20%,未来需 RLHF 强化。总体,Fara-7B 提供高效起点,集成后代理能力媲美云端大模型。
资料来源:
- 微软研究博客:https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/
- Hugging Face & Microsoft Foundry(MIT 开源)。
(正文字数:1028)