Fara-7B 代理模型训练：屏幕解析、动作标记化与 LoRA 多 GPU 适配

在构建高效的计算机使用代理（Computer Use Agent, CUA）模型时，Fara-7B 以 7B 参数规模实现了端侧部署的关键突破。其训练核心在于通过视觉屏幕解析直接预测动作坐标，避免依赖可访问性树（Accessibility Tree）或多模型协作，从而将代理能力注入单一视觉语言模型（VLM）。这种设计观点强调 “纯视觉代理”，即模型仅基于网页截图输出推理后跟工具调用，如 click (x,y) 或 type ()，这不仅简化了系统架构，还降低了延迟至设备本地运行水平。

证据支持这一观点：微软构建的全新合成数据生成管道，基于 Magentic-One 框架，涵盖任务生成、求解与轨迹验证三个阶段，产出 14.5 万条多步骤网页任务轨迹与 100 万步骤数据。这些数据覆盖定位、元素描述及视觉问答（VQA）等辅助任务，确保模型在真实网页环境下的鲁棒性。“Fara-7B 在 WebVoyager 基准上取得 62% 通过率（含重试），平均仅需 16 步完成任务，远优于同基座 UI-TARS-1.5-7B 的 41 步。”[1] 此性能源于数据中嵌入的动作令牌化方案：模型预测前输出推理文本，后接 Playwright 标准操作（如 click (相对坐标)）与宏工具（如 web_search ()），令牌序列统一为 <tool_name>(parameters) 格式，便于解析执行。

动作令牌化的落地参数至关重要。首先，坐标预测采用相对位置（x,y ∈ [0,1]），以适应截图分辨率变化；输入提示固定为 “观察屏幕，规划下一步：”，后接截图与任务描述，上下文上限 128k 令牌。其次，合成轨迹验证确保每步动作成功率 >95%，剔除无效样本。训练时，监督微调（SFT）目标为最大化动作序列对数似然，避免强化学习（RL）的复杂性。

为实现高效适配，LoRA 被注入 Qwen2.5-VL-7B 基座的关键模块：q_proj, v_proj, o_proj 等注意力层（r=8, alpha=16, dropout=0.05）。多 GPU 训练清单如下：

硬件配置：

8x A100/H100 (80GB)，分布式数据并行（DDP）。
批大小：per_device_train_batch_size=4，gradient_accumulation_steps=8，有效全局批次 256。
峰值显存：~60GB/GPU（fp16 + gradient_checkpointing）。

超参数优化：

学习率：2e-4，cosine 调度，warmup 10% 步数。
Epochs：3，总步数～10k（数据规模适中）。
优化器：AdamW (β1=0.9, β2=0.95)，max_grad_norm=1.0。
LoRA 目标：["q_proj", "k_proj", "v_proj", "o_proj"]，仅注意力层以节省参数（~1% 总参数）。

训练流程清单：

数据预处理：轨迹序列化 → tokenizer.apply_chat_template (max_length=4096, truncation=True)。
模型加载：AutoModelForCausalLM.from_pretrained (..., torch_dtype=torch.bfloat16, device_map="auto")。
PEFT 注入：LoraConfig (r=8, lora_alpha=16, target_modules = 注意力层)，get_peft_model (model, config)。
Trainer 初始化：TrainingArguments (output_dir="./fara-7b-sft", logging_steps=50, save_steps=1000, report_to="tensorboard")。
启动：trainer.train ()，监控 eval_loss <0.5 收敛。
合并与量化：peft_model.merge_and_unload () → bitsandbytes 4bit/8bit 量化，适配 Copilot+ PC NPU。

监控要点包括：(1) 动作准确率（坐标偏差 <5%），通过 WebTailBench 验证；(2) 拒绝率（82% 于红队任务），关键点（Critical Points）机制在敏感操作（如支付）前暂停求用户确认；(3) 幻觉率，日志中推理文本中 “观察” 与实际截图不符 >10% 则早停。

风险与回滚：复杂任务准确性不足（~40% 长序列失败），回滚至基座 Qwen2.5-VL 或降 r=4 重训。安全部署必沙盒（Docker/WSL2），审计所有轨迹记录。

此训练路径可复用于类似 agentic SLM，参数规模小、数据合成高效是关键。[2]

资料来源： [1] Microsoft Research Blog: Fara-7B: An Efficient Agentic Model for Computer Use. https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/ [2] IT 之家报道：微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布。https://www.ithome.com/0/899/916.htm