在构建高效的计算机使用代理(Computer Use Agent, CUA)模型时,Fara-7B 以 7B 参数规模实现了端侧部署的关键突破。其训练核心在于通过视觉屏幕解析直接预测动作坐标,避免依赖可访问性树(Accessibility Tree)或多模型协作,从而将代理能力注入单一视觉语言模型(VLM)。这种设计观点强调“纯视觉代理”,即模型仅基于网页截图输出推理后跟工具调用,如 click(x,y) 或 type(),这不仅简化了系统架构,还降低了延迟至设备本地运行水平。
证据支持这一观点:微软构建的全新合成数据生成管道,基于 Magentic-One 框架,涵盖任务生成、求解与轨迹验证三个阶段,产出 14.5 万条多步骤网页任务轨迹与 100 万步骤数据。这些数据覆盖定位、元素描述及视觉问答(VQA)等辅助任务,确保模型在真实网页环境下的鲁棒性。“Fara-7B 在 WebVoyager 基准上取得 62% 通过率(含重试),平均仅需 16 步完成任务,远优于同基座 UI-TARS-1.5-7B 的 41 步。”[1] 此性能源于数据中嵌入的动作令牌化方案:模型预测前输出推理文本,后接 Playwright 标准操作(如 click(相对坐标))与宏工具(如 web_search()),令牌序列统一为 <tool_name>(parameters) 格式,便于解析执行。
动作令牌化的落地参数至关重要。首先,坐标预测采用相对位置(x,y ∈ [0,1]),以适应截图分辨率变化;输入提示固定为“观察屏幕,规划下一步:”,后接截图与任务描述,上下文上限 128k 令牌。其次,合成轨迹验证确保每步动作成功率 >95%,剔除无效样本。训练时,监督微调(SFT)目标为最大化动作序列对数似然,避免强化学习(RL)的复杂性。
为实现高效适配,LoRA 被注入 Qwen2.5-VL-7B 基座的关键模块:q_proj, v_proj, o_proj 等注意力层(r=8, alpha=16, dropout=0.05)。多 GPU 训练清单如下:
硬件配置:
- 8x A100/H100 (80GB),分布式数据并行(DDP)。
- 批大小:per_device_train_batch_size=4,gradient_accumulation_steps=8,有效全局批次 256。
- 峰值显存:~60GB/GPU(fp16 + gradient_checkpointing)。
超参数优化:
- 学习率:2e-4,cosine 调度,warmup 10% 步数。
- Epochs:3,总步数 ~10k(数据规模适中)。
- 优化器:AdamW (β1=0.9, β2=0.95),max_grad_norm=1.0。
- LoRA 目标:["q_proj", "k_proj", "v_proj", "o_proj"],仅注意力层以节省参数(~1% 总参数)。
训练流程清单:
- 数据预处理:轨迹序列化 → tokenizer.apply_chat_template (max_length=4096, truncation=True)。
- 模型加载:AutoModelForCausalLM.from_pretrained(..., torch_dtype=torch.bfloat16, device_map="auto")。
- PEFT 注入:LoraConfig(r=8, lora_alpha=16, target_modules=注意力层),get_peft_model(model, config)。
- Trainer 初始化:TrainingArguments(output_dir="./fara-7b-sft", logging_steps=50, save_steps=1000, report_to="tensorboard")。
- 启动:trainer.train(),监控 eval_loss <0.5 收敛。
- 合并与量化:peft_model.merge_and_unload() → bitsandbytes 4bit/8bit 量化,适配 Copilot+ PC NPU。
监控要点包括:(1) 动作准确率(坐标偏差 <5%),通过 WebTailBench 验证;(2) 拒绝率(82% 于红队任务),关键点(Critical Points)机制在敏感操作(如支付)前暂停求用户确认;(3) 幻觉率,日志中推理文本中“观察”与实际截图不符 >10% 则早停。
风险与回滚:复杂任务准确性不足(~40% 长序列失败),回滚至基座 Qwen2.5-VL 或降 r=4 重训。安全部署必沙盒(Docker/WSL2),审计所有轨迹记录。
此训练路径可复用于类似 agentic SLM,参数规模小、数据合成高效是关键。[2]
资料来源:
[1] Microsoft Research Blog: Fara-7B: An Efficient Agentic Model for Computer Use. https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/
[2] IT之家报道:微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布。https://www.ithome.com/0/899/916.htm