Simon Willison 的 LLM 知识策展方法论：快速实验与结构化速记

在 AI 技术以周为单位迭代的当下，如何有效追踪并内化海量新信息成为每个技术从业者的核心挑战。Simon Willison 在 2025 年 AI Engineer World's Fair 的主题演讲中，分享了他过去半年追踪 LLM 发展的方法论 —— 不是依赖 leaderboard 数字，而是通过一套「快速实验 + 公开笔记」的工程化流程，将认知负荷转化为可查询、可复用的知识资产。

拒绝 leaderboard：每个人都需要自己的基准

Willison 在演讲中直言：「我从 leaderboard 的数字中获得的价值很少，而且最近我对它们失去了一些信任。」这一观点直指当前 AI 评估体系的痛点 —— 公开 benchmark 往往与真实使用场景脱节，而厂商优化目标与终端用户需求之间存在结构性偏差。

他的解决方案是建立一个「个人基准测试」。Willison 选择了一个看似荒诞的测试用例：让模型生成「一只鹈鹕骑自行车的 SVG 图像」。这个测试的巧妙之处在于：

跨模型可比性：所有文本模型都具备生成 SVG 代码的能力
难度梯度合理：自行车结构复杂，鹈鹕形态特殊，且「鹈鹕骑自行车」在现实中不可能发生
输出可解释：SVG 支持注释，能直观看到模型「试图做什么」

通过这个基准，他在半年内测试了超过 30 个模型，从 AWS Nova 到 DeepSeek-R1，从 Llama 3.3 70B 到 GPT-4.5，建立了一套完全基于个人工作流的评估体系。

方法论拆解：实验→速记→分享的闭环

Willison 的知识策展方法论可以概括为三个紧密衔接的环节：

1. 快速实验：最小化验证成本

Willison 开发了 LLM CLI 工具，允许他从命令行直接调用多个模型。例如，测试鹈鹕图像只需一行命令：

llm -m gpt-4.1-mini "Generate an SVG of a pelican riding a bicycle"

这种「零摩擦」实验环境的关键在于：

即时反馈：无需打开网页或编写脚本
批量能力：可快速对比多个模型的输出
结构化输出：使用 --schema 参数获取 JSON 格式的评估结果

2. 结构化速记：从碎片到资产

实验产生的原始输出需要被转化为可检索的知识。Willison 的做法是将结果存入 SQLite 数据库，并通过 Datasette 发布为可查询的网页应用。这种「结构化速记」的核心优势在于：

可组合性：不同实验的数据可以关联查询
可回溯性：半年前的测试结果仍可精确检索
可分享性：公开链接使他人可以验证或复用

3. 公开笔记：TIL 模式的知识积累

Willison 长期维护「Today I Learned」(TIL) 笔记，每条记录聚焦一个具体技术点。这种轻量级写作模式降低了发布门槛，同时通过标签和链接形成知识网络。在 LLM 追踪场景中，这意味着：

及时捕获：新模型发布当天即记录初步测试结果
渐进完善：随着使用深入，持续更新笔记内容
社区反馈：公开笔记吸引同行补充视角或纠正错误

工具链的工程化整合

Willison 的方法论之所以可持续，在于他将多个工具整合为无缝工作流：

LLM CLI：作为与模型交互的统一入口，支持 20+ 个模型 provider，内置对话历史管理和模板系统。

shot-scraper：用于捕获模型输出的可视化结果（如 SVG 渲染图），支持程序化截图和对比视图生成。

Datasette：将 SQLite 数据库转化为可浏览、可查询的 Web 界面，使个人实验数据具备「小型研究项目」的可访问性。

在演讲案例中，他用 shot-scraper 生成 560 组鹈鹕图像对比，然后使用 GPT-4.1-mini 批量评估「哪幅图更好」，最后计算 Elo 排名 —— 整个过程花费约 18 美分，却产出了比公开 leaderboard 更贴近实际需求的模型排序。

可落地的实践参数

对于希望采用类似方法的开发者，以下参数可作为起点：

个人基准设计原则：

选择与你实际工作相关的任务类型（代码生成、文档理解、多轮对话等）
确保测试用例具有「可观察的失败模式」—— 能区分「完全错误」和「部分正确」
保持测试集小而精，5-10 个用例足以建立有效排序

速记结构化模板：

模型标识（名称、版本、测试日期）
输入参数（prompt、temperature、system message）
输出摘要（关键特征、明显缺陷）
成本记录（token 消耗、API 费用）
后续追踪（是否值得深入测试、替代模型建议）

工具链最小配置：

命令行 LLM 客户端（如 Willison 的 llm 或类似工具）
轻量级数据库（SQLite 足以支撑个人级数据量）
自动化截图 / 对比工具（用于多模态输出评估）

局限与边界

这种方法论并非万能。个人基准测试的主观性意味着结果难以直接推广 —— 你的「鹈鹕测试」可能与他人的「SQL 生成测试」给出完全不同的模型排序。此外，技术迭代速度意味着任何静态基准都会快速过时，需要持续维护。

更重要的是，这种方法适用于「技术追踪」而非「深度研究」。对于需要严格统计显著性的场景，仍需依赖标准化 benchmark 和受控实验。

结语

Willison 的方法论本质上是一种「认知外包」策略：将记忆负担转移给结构化笔记系统，将评估标准锚定在个人工作流而非抽象指标，将知识积累转化为可复用的公开资产。在信息过载的时代，这种「策展者」而非「消费者」的姿态，或许是技术从业者保持清醒的关键。

正如他在演讲中所说：「这个领域发展得太快，以至于即使只覆盖过去六个月也是一项艰巨任务。」而结构化速记，正是应对这种艰巨性的工程化解药。

资料来源

Simon Willison, "The last six months in LLMs, illustrated by pelicans on bicycles", 2025-06-06, https://simonwillison.net/2025/Jun/6/six-months-in-llms/
LLM CLI Documentation, https://llm.datasette.io/

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。