Hotdry.
ai-systems

Fara-7B 代理模型训练:屏幕解析、动作标记化与 LoRA 多 GPU 适配

详解微软 Fara-7B 7B 代理模型高效训练路径:合成数据管道、屏幕视觉解析与动作令牌化设计,以及 LoRA 在多 GPU 上的参数配置、监控要点与回滚策略。

在构建高效的计算机使用代理(Computer Use Agent, CUA)模型时,Fara-7B 以 7B 参数规模实现了端侧部署的关键突破。其训练核心在于通过视觉屏幕解析直接预测动作坐标,避免依赖可访问性树(Accessibility Tree)或多模型协作,从而将代理能力注入单一视觉语言模型(VLM)。这种设计观点强调 “纯视觉代理”,即模型仅基于网页截图输出推理后跟工具调用,如 click (x,y) 或 type (),这不仅简化了系统架构,还降低了延迟至设备本地运行水平。

证据支持这一观点:微软构建的全新合成数据生成管道,基于 Magentic-One 框架,涵盖任务生成、求解与轨迹验证三个阶段,产出 14.5 万条多步骤网页任务轨迹与 100 万步骤数据。这些数据覆盖定位、元素描述及视觉问答(VQA)等辅助任务,确保模型在真实网页环境下的鲁棒性。“Fara-7B 在 WebVoyager 基准上取得 62% 通过率(含重试),平均仅需 16 步完成任务,远优于同基座 UI-TARS-1.5-7B 的 41 步。”[1] 此性能源于数据中嵌入的动作令牌化方案:模型预测前输出推理文本,后接 Playwright 标准操作(如 click (相对坐标))与宏工具(如 web_search ()),令牌序列统一为 <tool_name>(parameters) 格式,便于解析执行。

动作令牌化的落地参数至关重要。首先,坐标预测采用相对位置(x,y ∈ [0,1]),以适应截图分辨率变化;输入提示固定为 “观察屏幕,规划下一步:”,后接截图与任务描述,上下文上限 128k 令牌。其次,合成轨迹验证确保每步动作成功率 >95%,剔除无效样本。训练时,监督微调(SFT)目标为最大化动作序列对数似然,避免强化学习(RL)的复杂性。

为实现高效适配,LoRA 被注入 Qwen2.5-VL-7B 基座的关键模块:q_proj, v_proj, o_proj 等注意力层(r=8, alpha=16, dropout=0.05)。多 GPU 训练清单如下:

硬件配置:

  • 8x A100/H100 (80GB),分布式数据并行(DDP)。
  • 批大小:per_device_train_batch_size=4,gradient_accumulation_steps=8,有效全局批次 256。
  • 峰值显存:~60GB/GPU(fp16 + gradient_checkpointing)。

超参数优化:

  • 学习率:2e-4,cosine 调度,warmup 10% 步数。
  • Epochs:3,总步数~10k(数据规模适中)。
  • 优化器:AdamW (β1=0.9, β2=0.95),max_grad_norm=1.0。
  • LoRA 目标:["q_proj", "k_proj", "v_proj", "o_proj"],仅注意力层以节省参数(~1% 总参数)。

训练流程清单:

  1. 数据预处理:轨迹序列化 → tokenizer.apply_chat_template (max_length=4096, truncation=True)。
  2. 模型加载:AutoModelForCausalLM.from_pretrained (..., torch_dtype=torch.bfloat16, device_map="auto")。
  3. PEFT 注入:LoraConfig (r=8, lora_alpha=16, target_modules = 注意力层),get_peft_model (model, config)。
  4. Trainer 初始化:TrainingArguments (output_dir="./fara-7b-sft", logging_steps=50, save_steps=1000, report_to="tensorboard")。
  5. 启动:trainer.train (),监控 eval_loss <0.5 收敛。
  6. 合并与量化:peft_model.merge_and_unload () → bitsandbytes 4bit/8bit 量化,适配 Copilot+ PC NPU。

监控要点包括:(1) 动作准确率(坐标偏差 <5%),通过 WebTailBench 验证;(2) 拒绝率(82% 于红队任务),关键点(Critical Points)机制在敏感操作(如支付)前暂停求用户确认;(3) 幻觉率,日志中推理文本中 “观察” 与实际截图不符 >10% 则早停。

风险与回滚:复杂任务准确性不足(~40% 长序列失败),回滚至基座 Qwen2.5-VL 或降 r=4 重训。安全部署必沙盒(Docker/WSL2),审计所有轨迹记录。

此训练路径可复用于类似 agentic SLM,参数规模小、数据合成高效是关键。[2]

资料来源: [1] Microsoft Research Blog: Fara-7B: An Efficient Agentic Model for Computer Use. https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/ [2] IT 之家报道:微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布。https://www.ithome.com/0/899/916.htm

查看归档