Fara-7B作为微软首款专为计算机使用(Computer Use)设计的7B参数agentic小模型(SLM),其核心工程在于高效的屏幕解析(screen parsing)和动作执行(action execution)管道。该模型基于Qwen2.5-VL-7B视觉语言底座,支持128k上下文,通过像素级视觉理解浏览器截图,直接预测坐标动作如click(x,y)、type()和scroll,实现端侧低延迟自动化网页任务,如购物、预约和搜索。不同于依赖可访问性树(Accessibility Tree)的传统方案,Fara-7B模拟人类视觉交互,避免结构化数据依赖,提升了对复杂页面的鲁棒性。
实时屏幕解析机制
屏幕解析是Fara-7B管道的入口,直接从浏览器截图(分辨率固定为1428x896)中定位可交互元素。模型输入最新3张截图+完整动作历史文本,输出推理(thinking)后调用工具。视觉定位依赖训练中的辅助任务数据,包括 grounding(元素定位)、captioning(描述)和VQA(视觉问答),覆盖14.5万轨迹、100万步骤的合成数据集。
工程实践:解析管道采用“observe-think”循环,每步等待截图稳定(推荐wait 1-3秒)。坐标预测精度阈值设为±5像素,避免边缘点击失败;若元素模糊,使用mouse_move预定位后left_click。证据显示,在WebVoyager基准上,Fara-7B成功率达73.5%,优于同级UI-TARS-1.5-7B的66.4%,得益于纯视觉路径对动态网页的适应。“Fara-7B通过视觉感知网页并直接预测坐标动作,不依赖额外解析模型或可访问性树”(微软官方博客)。
落地参数:
- 截图分辨率:1428x896(固定,避免缩放失真)。
- 定位阈值:元素中心±3-5px,超出重试1-2次。
- 辅助工具:集成PaddleOCR中文识别,阈值置信度>0.8。
动作执行管道设计
执行管道遵循“observe-think-act”模式:观察截图→推理下一步→工具调用。支持Playwright标准动作(click、type、scroll)和宏工具(web_search、visit_url)。每步输出JSON工具调用,如{"action": "left_click", "coordinate": [x,y]},管道串行执行,历史累积至128k上限。
低延迟优化:端侧部署,利用Copilot+ PC NPU加速量化版(VSCode AI Toolkit下载),平均任务16.5步,成本0.025美元/任务。容错嵌入:动作前检查critical points(如提交表单),暂停征求用户同意;拒绝不当任务率82%(WebTailBench-Refusals 111红队任务)。
证据:在Online-Mind2Web上34.1%成功率,DeepShop 26.2%,Browserbase人工验证WebVoyager 62%(含重试)。管道支持terminate(status="success/failure")提前结束,避免无限循环。
落地清单:
- 动作序列:mouse_move → left_click → wait(2s) → type(text, press_enter=False)。
- 宏工具优先:复杂搜索用web_search(query),减少步骤。
- 历史管理:截取最近10步+3截图,压缩旧历史至512 tokens。
低延迟与容错阈值调优
端侧运行是Fara-7B低延迟关键:无云传输,NPU推理<1s/步。调优焦点:等待阈值、坐标容忍、重试策略。
- 等待阈值:动态wait(1-5s),页面加载超时10s后history_back或terminate。
- 坐标容错:首次失败偏移±10px重试2次;scroll pixels=±100(正上负下)。
- 幻觉检测:推理文本中若无坐标/工具,fallback到pause_and_memorize_fact(fact="元素未定位")。
- 回滚策略:3步失败率>50%时terminate("failure");critical points一律暂停,记录日志审计。
监控点:步骤数>30警报;成功率<60% A/B测试底座模型。风险:复杂任务准确性低(微软实验性声明),故沙盒运行(Docker隔离)。
调优参数表:
| 参数 |
默认值 |
调优范围 |
目的 |
| wait时间 |
2s |
1-5s |
加载稳定 |
| 坐标偏移 |
±5px |
±3-10px |
点击精度 |
| 重试次数 |
2 |
1-3 |
容错 |
| 步骤上限 |
30 |
20-50 |
防循环 |
| 拒绝阈值 |
82% |
>80% |
安全 |
实际部署:集成Magentic-UI原型(GitHub microsoft/magentic-ui),人机环路编辑计划。未来RLHF可进一步提升。
资料来源:微软研究博客(https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/)、Hugging Face模型卡(https://huggingface.co/microsoft/Fara-7B)、技术报告(https://aka.ms/fara-techreport)。
(正文约1250字)