Hotdry.

Article

经验驱动的发现:Sutton第二教训与AI系统设计的范式转移

从Sutton的'第二教训'出发,探讨经验驱动发现机制对AI系统设计的工程启示:如何构建能自主发现而非仅存储知识的智能体。

2026-06-10ai-systems

Rich Sutton 在 2019 年发表的《The Bitter Lesson》已成为 AI 领域的奠基性文本,但大多数人只记住了其中的一半。这篇短文包含两个核心教训,而业界对第一教训 ——"利用计算力的通用方法最终最有效"—— 的过度关注,恰恰掩盖了更具颠覆性的第二教训。对于正在构建下一代 AI 系统的工程师而言,理解这第二个教训可能是区分 "包含知识的系统" 与 "能发现知识的系统" 的关键分水岭。

被忽视的第二教训

Sutton 原文的结尾段落道出了第二教训的核心:"心智的实际内容极其复杂,无法挽回地复杂;我们应该停止试图寻找简单的方式来思考心智的内容,比如简单的方式思考空间、物体、多智能体或对称性。这些都是任意的、本质上复杂的外部世界的一部分。它们不应该被内置,因为它们的复杂性是无穷无尽的;相反,我们应该只内置能够找到并捕捉这种任意复杂性的元方法。"

这段话的激进之处在于,它直接挑战了当前主流 AI 开发范式。大语言模型通过海量静态数据预训练来 "压缩" 人类知识,本质上仍是在将人类已发现的内容内置到系统中。Sutton 认为,这种做法虽然短期内有效,却阻碍了我们理解 "发现过程本身是如何运作的"。真正的智能不应是知识的容器,而应是能够像人类一样通过经验生成新知识的发现引擎。

Sutton 将这一理念进一步发展为 "经验时代"(Era of Experience)的概念。他用婴儿探索环境的视频来说明:人类智能的本质不在于预加载了多少知识,而在于通过与世界的持续交互不断学习和适应的能力。这与当前依赖人类生成文本和图像进行训练的范式形成鲜明对比。

工程落地的四个设计原则

对于需要构建实际系统的工程师,Sutton 的第二教训可以转化为四个可执行的设计原则:

第一,拥抱经验学习架构。 系统应从设计之初就支持持续学习、元学习和实时适应,而非仅在离线训练阶段学习。这意味着需要构建能够在线更新策略的架构,并处理非独立同分布(non-IID)的数据流。Sutton 在其 Alberta Plan 中强调,应关注 "获取和组织知识的算法",而非直接编码知识本身。

第二,设计应对真实世界约束的系统。 John Carmack 在 Keen Technologies 的实践中明确体现了这一点。他选择让机器人通过实体游戏手柄学习玩 Atari 游戏,而非在模拟环境中训练。这迫使系统必须处理物理世界的延迟、噪声和不确定性。Carmack 的观察切中要害:"现实不是回合制游戏"—— 世界不会等待你的智能体准备好才继续运转。

第三,优先考虑发现而非性能。 传统的 AI 系统优化往往关注在固定任务上的性能提升,而经验驱动的系统应将目标设定为发现新策略和新表征的能力。这要求重新定义评估指标:不仅衡量当前任务完成度,还要衡量系统在面对新环境时的适应速度和探索效率。

第四,采用终身学习思维。 系统设计应假设智能体将在整个运行生命周期内持续改进,而非仅在预训练阶段学习。这带来了技术挑战:如何避免灾难性遗忘?如何在稀疏奖励环境下保持学习动力?如何平衡探索与利用?这些问题的解决需要重新思考学习算法的基本结构。

实践中的挑战与权衡

Carmack 在 Keen Technologies 的实验揭示了经验驱动方法的实际工程难点。他明确拒绝了 LLM 路线,理由是 "LLMs 知道一切却什么也没学到"—— 它们拥有海量知识,却不具备通过交互学习的能力。这一选择意味着直面一系列硬核问题:

稀疏奖励是首要难题。与监督学习的密集反馈不同,真实世界往往只在长周期后提供少量反馈信号。这要求系统具备信用分配能力,能够在延迟奖励的情况下追溯哪些行为序列是有价值的。

实时约束同样关键。经验学习不能是离线批处理过程,而必须是在线、流式的。这对系统延迟提出了严苛要求:感知、决策、执行、观察结果、更新策略 —— 这一循环必须在可接受的时间窗口内完成。

序列学习则是另一个被低估的挑战。人类学习是连续的、累积的,而大多数深度学习系统在任务切换时会遭受灾难性遗忘。构建能够连续学习多个任务而不遗忘先前能力的系统,是实现终身学习的技术前提。

从知识容器到发现引擎

Sutton 的第二教训指向 AI 发展的一个深层范式转移。第一教训驱动的规模化计算已经带来了大模型的突破,但第二教训揭示了一个更根本的区别:包含知识的智能与能够发现知识的智能之间的差异。

对于正在构建机器人、自主系统或任何需要在复杂变化环境中运行的 AI 产品的工程师而言,这一区别至关重要。经验时代不是遥远的未来,而是下一个发展阶段 —— 它要求我们现在就重新思考系统架构的基本假设。

未来的 AI 系统不应只是人类知识的存储库,而应成为能够随着世界变化而学习和适应的发现引擎。正如 Sutton 所言,我们需要的是 "能够像我们一样发现的 AI 智能体,而不是包含我们所发现内容的智能体"。


参考来源

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com