端侧小模型 GUI 代理工程化：Ferret-UI Lite 的 grounding、action 预测与部署实践

在移动设备上构建高效的 GUI 代理一直是工程挑战：大模型虽强大，但延迟高、隐私差且功耗大。小模型如 Ferret-UI Lite（3B 参数）证明，通过专项优化，可实现端侧部署，同时在 grounding 基准上媲美 7B 模型。这里的核心观点是：聚焦统一表示、合成数据规模化和 RL 精细化，能让小 VLM 在隐私敏感的 on-device 场景下落地。

首先，多模态 VLM grounding 是 GUI 代理的基础。传统 VLM 处理高分辨率截屏时 token 爆炸，小模型易失真。Ferret-UI Lite 采用 VitDet 图像编码器结合 AnyRes 策略，将截屏动态分区为网格（典型 1k-4k token），支持任意分辨率输入。随后引入视觉工具 ——zoom-in：模型先全局预测位置，再 crop 该区域（围绕预测点，固定大小如 256x256）输入二次精炼。这模拟人类 “放大查看”，特别适合密集 UI 中的小图标 / 文字。

证据显示，这种设计在 ScreenSpot-Pro（高分辨桌面）上达 53.3%，超多数 3B 基线。“Ferret-UI Lite 在 ScreenSpot-V2 上 grounding 准确率达 91.6%。” RL 阶段用 containment reward：预测点落入 GT bbox 即 +1，提升鲁棒性。

可落地参数 / 清单：

AnyRes 配置：grid_size=7~14（视分辨率），max_patches=1.5k，确保移动端 <2s 推理。
Zoom-in 流程：1. 全局 pred (x,y)；2. crop_radius=128px；3. 二次 pred 用相同 prompt + “refine location”。
RL reward：sparse containment (in bbox=1) 或 dense：max (1 - 0.5 * (dx/w + dy/h), 0)，λ=0.5。
阈值：若二次 pred 偏移 >5%，fallback 全局 pred。

监控点：val set 上 grounding AP@0.5 >85%，否则增高 - res 数据比例。

其次，紧凑 action prediction 需统一空间跨平台。Ferret-UI Lite 定义 11 动作：共享如 tap (x,y)、swipe (up/down/left/right)、textentry (texts)、terminate (reason)；平台特异如 long_press (x,y, mobile)、press_hotkey (hotkeys, desktop/web)。用 function-call 格式输出，如 tap(x=0.45,y=0.67)，便解析且对齐 LLM tool-use。

训练管道：SFT 先混真实 / 合成数据（grounding 60%、nav 40%，总～10M trajectories）。合成关键：multi-agent rollout——curriculum task gen（难度递增）、planner 分解目标、executor grounding、critic 评估 / 反馈，生成 online 轨迹；加 perturbations（如错 swipe 后 recovery）提升鲁棒。SFT 10K steps 后，RLVR 用 GRPO：每步 sample 32 outputs，reward = f_type (匹配类型：无参 2 分、有参 1 分) + f_param (string exact 或 dense dist)。

证据：合成数据从 13K 到 17K 轨迹，AndroidWorld SR 升 2.8%；RL 后 +3%。“在 OSWorld 上导航成功率 19.8%。”

可落地清单：

Action space：优先 8 核心（tap/swipe/text/terminate/move/drag/locate/press_enter），扩展平台特异 <4。
数据混比：grounding:nav=6:4；合成占比 >50%，multi-agent 过滤 VLM-judge (quality>7/10)。
RL hyper：samples=32/step (nav), 8+4 (ground zoom)；steps=1.5K；online filter 同 reward 样本丢弃。
CoT 模板：plan（下一步）、action_think（元素分析）、reflect（目标偏差），GPT-4o gen 用 SoM marks。

部署时，action parser 校验 param 范围 (x,y [0,1] norm)，无效回滚 SFT policy。

最后，量化 / 部署 tradeoffs。3B 模型 INT8 量化后，iPhone NPU 上推理～500ms/step，功耗 <1W，隐私全本地。但长 horizon 任务 SR 仅 20%，因小模型规划弱 —— 观点：先定位短任务（1-5 步），渐进多步。

tradeoffs 参数：

量化：AWQ/PTQ to 4bit，精度降 <2% grounding；测试 perplexity <3.5。
效率：batch=1，温度 = 0.7 action sample；max_steps=15 (短任务)，超时回滚。
监控 / 回滚：实时 reward avg >0.8；SR <15% 降级 cloud；日志：per-action success, zoom usage rate (>30% dense UI)。
风险限：RL diverge（reward drop >10%）→早停；数据 bias（单一平台）→每周 val 多域。

实际部署清单：

Pretrain 3B VLM (text+VL mix)。
SFT 数据 curation (public+synth)。
RLVR finetune。
Quantize + on-device benchmark (latency<1s, battery<5%/task)。
A/B test vs baseline agent。

Ferret-UI Lite 证明，小模型经工程化可实用，未来结合 distillation 更优。

资料来源：

Apple Machine Learning Research: https://machinelearning.apple.com/research/ferret-ui
arXiv 论文: https://arxiv.org/abs/2509.26539