在移动设备上构建高效的 GUI 代理一直是工程挑战:大模型虽强大,但延迟高、隐私差且功耗大。小模型如 Ferret-UI Lite(3B 参数)证明,通过专项优化,可实现端侧部署,同时在 grounding 基准上媲美 7B 模型。这里的核心观点是:聚焦统一表示、合成数据规模化和 RL 精细化,能让小 VLM 在隐私敏感的 on-device 场景下落地。
首先,多模态 VLM grounding 是 GUI 代理的基础。传统 VLM 处理高分辨率截屏时 token 爆炸,小模型易失真。Ferret-UI Lite 采用 VitDet 图像编码器结合 AnyRes 策略,将截屏动态分区为网格(典型 1k-4k token),支持任意分辨率输入。随后引入视觉工具 ——zoom-in:模型先全局预测位置,再 crop 该区域(围绕预测点,固定大小如 256x256)输入二次精炼。这模拟人类 “放大查看”,特别适合密集 UI 中的小图标 / 文字。
证据显示,这种设计在 ScreenSpot-Pro(高分辨桌面)上达 53.3%,超多数 3B 基线。“Ferret-UI Lite 在 ScreenSpot-V2 上 grounding 准确率达 91.6%。” RL 阶段用 containment reward:预测点落入 GT bbox 即 +1,提升鲁棒性。
可落地参数 / 清单:
- AnyRes 配置:grid_size=7~14(视分辨率),max_patches=1.5k,确保移动端 <2s 推理。
- Zoom-in 流程:1. 全局 pred (x,y);2. crop_radius=128px;3. 二次 pred 用相同 prompt + “refine location”。
- RL reward:sparse containment (in bbox=1) 或 dense:max (1 - 0.5 * (dx/w + dy/h), 0),λ=0.5。
- 阈值:若二次 pred 偏移 >5%,fallback 全局 pred。
监控点:val set 上 grounding AP@0.5 >85%,否则增高 - res 数据比例。
其次,紧凑 action prediction 需统一空间跨平台。Ferret-UI Lite 定义 11 动作:共享如 tap (x,y)、swipe (up/down/left/right)、textentry (texts)、terminate (reason);平台特异如 long_press (x,y, mobile)、press_hotkey (hotkeys, desktop/web)。用 function-call 格式输出,如 tap(x=0.45,y=0.67),便解析且对齐 LLM tool-use。
训练管道:SFT 先混真实 / 合成数据(grounding 60%、nav 40%,总~10M trajectories)。合成关键:multi-agent rollout——curriculum task gen(难度递增)、planner 分解目标、executor grounding、critic 评估 / 反馈,生成 online 轨迹;加 perturbations(如错 swipe 后 recovery)提升鲁棒。SFT 10K steps 后,RLVR 用 GRPO:每步 sample 32 outputs,reward = f_type (匹配类型:无参 2 分、有参 1 分) + f_param (string exact 或 dense dist)。
证据:合成数据从 13K 到 17K 轨迹,AndroidWorld SR 升 2.8%;RL 后 +3%。“在 OSWorld 上导航成功率 19.8%。”
可落地清单:
- Action space:优先 8 核心(tap/swipe/text/terminate/move/drag/locate/press_enter),扩展平台特异 <4。
- 数据混比:grounding:nav=6:4;合成占比 >50%,multi-agent 过滤 VLM-judge (quality>7/10)。
- RL hyper:samples=32/step (nav), 8+4 (ground zoom);steps=1.5K;online filter 同 reward 样本丢弃。
- CoT 模板:plan(下一步)、action_think(元素分析)、reflect(目标偏差),GPT-4o gen 用 SoM marks。
部署时,action parser 校验 param 范围 (x,y [0,1] norm),无效回滚 SFT policy。
最后,量化 / 部署 tradeoffs。3B 模型 INT8 量化后,iPhone NPU 上推理~500ms/step,功耗 <1W,隐私全本地。但长 horizon 任务 SR 仅 20%,因小模型规划弱 —— 观点:先定位短任务(1-5 步),渐进多步。
tradeoffs 参数:
- 量化:AWQ/PTQ to 4bit,精度降 <2% grounding;测试 perplexity <3.5。
- 效率:batch=1,温度 = 0.7 action sample;max_steps=15 (短任务),超时回滚。
- 监控 / 回滚:实时 reward avg >0.8;SR <15% 降级 cloud;日志:per-action success, zoom usage rate (>30% dense UI)。
- 风险限:RL diverge(reward drop >10%)→早停;数据 bias(单一平台)→每周 val 多域。
实际部署清单:
- Pretrain 3B VLM (text+VL mix)。
- SFT 数据 curation (public+synth)。
- RLVR finetune。
- Quantize + on-device benchmark (latency<1s, battery<5%/task)。
- A/B test vs baseline agent。
Ferret-UI Lite 证明,小模型经工程化可实用,未来结合 distillation 更优。
资料来源:
- Apple Machine Learning Research: https://machinelearning.apple.com/research/ferret-ui
- arXiv 论文: https://arxiv.org/abs/2509.26539