Hotdry.
ai-systems

FDM-1:首个通用计算机行动模型的构建原语与验证机制

Standard Intelligence FDM-1 通过高效视频编码、动作原语 tokenization 和 IDM 验证机制,让 LLM 执行 CAD 建模、网站 fuzzing 和真实驾驶等复杂任务,提供工程落地参数。

在大型语言模型(LLM)从文本生成向通用代理演进的过程中,计算机行动模型(Computer Action Model)代表了一个关键范式转变。它不再局限于产生描述性输出,而是直接操控计算机环境,执行多步交互任务,如 CAD 设计、软件调试或实时驾驶。这种能力依赖于坚实的基础行动原语(action primitives)和可靠的验证机制(verification mechanisms)。Standard Intelligence(SI.inc)的 FDM-1 是首个 fully general 计算机行动模型,展示了如何通过视频驱动训练和高效 tokenization 实现这一目标。

基础行动原语:从连续输入到离散 Tokens

传统代理依赖截图 + 工具调用,上下文受限且延迟高,无法处理连续高帧率交互。FDM-1 的创新在于直接在视频流上训练,输出低级动作 tokens,包括按键、鼠标移动和滚动事件。这些原语构成了任何计算机操作的原子单元。

  • 按键与滚动:每个按键按下 / 释放和滚动事件独立 token 化,直观高效。例如,输入 “K” 对应特定 token,支持多键组合如 Cmd+V。

  • 鼠标移动:连续像素空间难以建模,FDM-1 采用指数分箱(exponential binning)策略。将 X/Y delta 归一化到屏幕尺寸后,分入 49 个指数增长的 bins。小移动用细粒度 bins(精确到像素级),大移动用粗粒度(高效覆盖远距离)。同时预测下个点击位置,确保轨迹平滑。

这种 tokenization 使动作空间离散且均匀,模型能高效学习任意交互。证据显示,FDM-1 在 Blender 中挤出 n-gon 面生成齿轮,或 fuzzing 银行 app 发现 bug,均依赖这些原语的多步组合。

落地参数:

  • Bins 配置:7x7 网格(49 bins),bin 边界为 [0, 0.001, 0.002, ..., 1.0] 指数序列(伪代码:bins = [2^{-k} for k in range (10)] + linear tail)。
  • 帧率:30 FPS,delta 计算 per-frame。
  • 词汇表大小:~256 keys + 49x2 mouse + clicks(总~500 tokens)。

验证机制:IDM 标注与 Rollout Eval

构建海量数据集是挑战,FDM-1 用逆动力学模型(IDM)自动标注 1100 万小时互联网视频(编码、游戏、编辑等)。IDM 从前后帧推断动作,避免昂贵人工标注。

IDM 架构:masked diffusion model,非因果训练(同时观察全序列)。推理时迭代 unmask 高置信 tokens,先易后难。准确率接近人工数据:在 typing 和 UI manipulation 上,IDM 标注数据甚至优于 contractor 数据。

验证通过大规模 rollout:在 8 万 forking VM 上,每小时 100 万 rollout。Forking VM 捕获 OS 快照,实现高效重置;Rust 绑定输入 + 优化 VNC 达 11ms 端到端延迟(屏捕 - 动作)。

证据:缩放曲线显示,随着 run size 增加,target accuracy 和 CAD 任务成功率线性提升。开车 demo:1 小时 finetune 后,零样本基线 50% 键准率,远超无预训模型。

监控要点:

  • 成功率阈值:>80% 单步动作准确(keypress 90%、mouse target 70%)。
  • 延迟 SLA:RTT <15ms,GPU-VM 共置,cumulative packing。
  • 上下文利用:1M tokens ~2 小时视频,监控 token 消耗 >90% 饱和。
  • 噪声过滤:IDM 置信 <0.9 tokens 丢弃,回滚到人工数据 mix(10%)。

视频编码:长上下文基石

支撑一切的是 masked compression 视频编码器。将 30 FPS 视频压缩 100x(2 小时 / 1M tokens),优于 VLM 的 1 分钟 / 百万 tokens。“我们的视频编码器可以将近 2 小时的 30 FPS 视频压缩到仅 1M tokens。”

自监督任务(inverse dynamics、frame recon、text transcription)确保语义保留。收敛 100x 快于 ViT。

参数:

  • 上下文窗口:32k (3.5min)、200k (20min)、1M (1.75h)。
  • 训练目标:mask 比率 50%,diffusion steps 16。

工程清单:从零构建类似系统

  1. 数据管道

    • 采集:YouTube/ Twitch 下载,滤高信息密度(text-heavy、交互密集)。
    • 标注:IDM 预训 40k 小时人工 → 全规模 labeling。
    • 规模:目标 10M+ 小时,存储于廉价 heap(如 SI 的 30PB <$500k)。
  2. 模型训练

    • 阶段 1:IDM (diffusion, non-causal)。
    • 阶段 2:FDM autoregressive on frame-action interleaves。
    • 无 LM transfer,纯视频行动。
  3. 推理 Infra

    • VM:Ubuntu minimal, 1vCPU/8GB, H100 控 42 VMs。
    • 优化:低延迟 VNC、Rust input、region coloc。
    • 部署:支持 30 FPS 实时。
  4. 回滚策略

    • 异常:动作置信低 → fallback to LLM planner。
    • 安全:sandbox VM,human-in-loop 长任务。
  5. 扩展

    • Finetune:任务特定 1h 数据 → 泛化真实世界。
    • 未来:zero-shot 自驾、多模态融合。

FDM-1 证明,行动原语 + 验证机制可解锁 LLM 的计算潜力,从 “建议者” 变 “执行者”。工程上,优先低延迟 infra 和数据规模。

资料来源

(正文字数:约 1250 字)

查看归档