FDM-1：首个通用计算机行动模型的构建原语与验证机制

在大型语言模型（LLM）从文本生成向通用代理演进的过程中，计算机行动模型（Computer Action Model）代表了一个关键范式转变。它不再局限于产生描述性输出，而是直接操控计算机环境，执行多步交互任务，如 CAD 设计、软件调试或实时驾驶。这种能力依赖于坚实的基础行动原语（action primitives）和可靠的验证机制（verification mechanisms）。Standard Intelligence（SI.inc）的 FDM-1 是首个 fully general 计算机行动模型，展示了如何通过视频驱动训练和高效 tokenization 实现这一目标。

基础行动原语：从连续输入到离散 Tokens

传统代理依赖截图 + 工具调用，上下文受限且延迟高，无法处理连续高帧率交互。FDM-1 的创新在于直接在视频流上训练，输出低级动作 tokens，包括按键、鼠标移动和滚动事件。这些原语构成了任何计算机操作的原子单元。

按键与滚动：每个按键按下 / 释放和滚动事件独立 token 化，直观高效。例如，输入 “K” 对应特定 token，支持多键组合如 Cmd+V。
鼠标移动：连续像素空间难以建模，FDM-1 采用指数分箱（exponential binning）策略。将 X/Y delta 归一化到屏幕尺寸后，分入 49 个指数增长的 bins。小移动用细粒度 bins（精确到像素级），大移动用粗粒度（高效覆盖远距离）。同时预测下个点击位置，确保轨迹平滑。

这种 tokenization 使动作空间离散且均匀，模型能高效学习任意交互。证据显示，FDM-1 在 Blender 中挤出 n-gon 面生成齿轮，或 fuzzing 银行 app 发现 bug，均依赖这些原语的多步组合。

落地参数：

Bins 配置：7x7 网格（49 bins），bin 边界为 [0, 0.001, 0.002, ..., 1.0] 指数序列（伪代码：bins = [2^{-k} for k in range (10)] + linear tail）。
帧率：30 FPS，delta 计算 per-frame。
词汇表大小：~256 keys + 49x2 mouse + clicks（总～500 tokens）。

验证机制：IDM 标注与 Rollout Eval

构建海量数据集是挑战，FDM-1 用逆动力学模型（IDM）自动标注 1100 万小时互联网视频（编码、游戏、编辑等）。IDM 从前后帧推断动作，避免昂贵人工标注。

IDM 架构：masked diffusion model，非因果训练（同时观察全序列）。推理时迭代 unmask 高置信 tokens，先易后难。准确率接近人工数据：在 typing 和 UI manipulation 上，IDM 标注数据甚至优于 contractor 数据。

验证通过大规模 rollout：在 8 万 forking VM 上，每小时 100 万 rollout。Forking VM 捕获 OS 快照，实现高效重置；Rust 绑定输入 + 优化 VNC 达 11ms 端到端延迟（屏捕 - 动作）。

证据：缩放曲线显示，随着 run size 增加，target accuracy 和 CAD 任务成功率线性提升。开车 demo：1 小时 finetune 后，零样本基线 50% 键准率，远超无预训模型。

监控要点：

成功率阈值：>80% 单步动作准确（keypress 90%、mouse target 70%）。
延迟 SLA：RTT <15ms，GPU-VM 共置，cumulative packing。
上下文利用：1M tokens ~2 小时视频，监控 token 消耗 >90% 饱和。
噪声过滤：IDM 置信 <0.9 tokens 丢弃，回滚到人工数据 mix（10%）。

视频编码：长上下文基石

支撑一切的是 masked compression 视频编码器。将 30 FPS 视频压缩 100x（2 小时 / 1M tokens），优于 VLM 的 1 分钟 / 百万 tokens。“我们的视频编码器可以将近 2 小时的 30 FPS 视频压缩到仅 1M tokens。”

自监督任务（inverse dynamics、frame recon、text transcription）确保语义保留。收敛 100x 快于 ViT。

参数：

上下文窗口：32k (3.5min)、200k (20min)、1M (1.75h)。
训练目标：mask 比率 50%，diffusion steps 16。

工程清单：从零构建类似系统

数据管道：
- 采集：YouTube/ Twitch 下载，滤高信息密度（text-heavy、交互密集）。
- 标注：IDM 预训 40k 小时人工 → 全规模 labeling。
- 规模：目标 10M+ 小时，存储于廉价 heap（如 SI 的 30PB <$500k）。
模型训练：
- 阶段 1：IDM (diffusion, non-causal)。
- 阶段 2：FDM autoregressive on frame-action interleaves。
- 无 LM transfer，纯视频行动。
推理 Infra：
- VM：Ubuntu minimal, 1vCPU/8GB, H100 控 42 VMs。
- 优化：低延迟 VNC、Rust input、region coloc。
- 部署：支持 30 FPS 实时。
回滚策略：
- 异常：动作置信低 → fallback to LLM planner。
- 安全：sandbox VM，human-in-loop 长任务。
扩展：
- Finetune：任务特定 1h 数据 → 泛化真实世界。
- 未来：zero-shot 自驾、多模态融合。

FDM-1 证明，行动原语 + 验证机制可解锁 LLM 的计算潜力，从 “建议者” 变 “执行者”。工程上，优先低延迟 infra 和数据规模。

资料来源：

[1] https://si.inc/posts/fdm1/ （FDM-1 官方发布）
[2] https://si.inc （SI 主页）

（正文字数：约 1250 字）