经验驱动发现系统：Rich Sutton 的 AI 工程哲学

大型语言模型（LLM）的爆发让 AI 领域陷入一种集体幻觉：似乎堆叠更多参数、喂入更多静态数据就能通往通用智能。然而，2024 年图灵奖得主 Rich Sutton 在 NUS 的演讲中用一个婴儿爬行的视频给出了尖锐的反驳 —— 婴儿通过与世界交互产生新知识，而这是当前最先进的 LLM 所不具备的能力。Sutton 将其概括为 "Experience beats knowledge"（经验优于知识），并预言我们正站在 "经验时代"（Era of Experience）的门槛上。

这一理念对 AI 工程实践具有根本性意义。如果智能的本质是经验而非知识，那么我们的系统架构就需要从 "知识容器" 转向 "经验生成器"。本文将探讨如何工程化地构建具备科学发现能力的经验驱动型 AI 系统。

从静态数据到动态交互：范式转换

传统机器学习范式将智能视为从静态数据集中提取模式的能力。监督学习、甚至大部分强化学习应用都遵循这一逻辑：先收集数据，再训练模型，最后部署推理。Sutton 指出这种范式的根本局限 —— 它切断了智能体与真实世界的持续交互回路。

经验驱动的发现系统要求一种不同的架构设计。智能体必须能够持续地、自主地与环境交互，将每一次交互转化为学习信号。这意味着系统需要具备三个核心能力：感知 - 行动闭环、内在动机生成、以及元学习能力（learning to learn）。

感知 - 行动闭环要求系统具备实时环境接口。不同于批处理模式的数据输入，经验驱动系统需要流式处理来自传感器、模拟器或真实世界接口的连续信号。延迟控制成为关键工程参数 —— 感知到行动的端到端延迟应控制在 100ms 以内，以确保交互的因果连贯性。

内在动机：发现引擎的工程化

经验驱动系统的核心挑战在于：当外部奖励信号稀疏或不存在时，智能体如何保持探索动力？Sutton 的研究表明，答案在于内在动机机制 —— 智能体需要具备自主生成目标的能力。

在工程实现层面，内在动机可通过信息增益（information gain）或学习进度（learning progress）来量化。好奇心驱动的探索算法（如 ICM、RND）提供了一种可行路径：智能体预测自身状态转移或环境动态，将预测误差作为内在奖励信号。当智能体进入熟悉区域时，预测准确，内在奖励降低；进入新区域时，预测误差增大，内在奖励上升，从而驱动探索。

关键工程参数包括：

好奇心系数（curiosity coefficient）：内在奖励与外部奖励的权重比例，通常初始设置为 0.1-0.3，随训练动态调整
预测网络容量：应略小于策略网络，避免智能体陷入 "可预测但无用" 的循环（如电视雪花噪声）
** episodic 记忆缓存 **：存储最近 N 个状态（N 通常为 1000-10000），用于计算状态新颖度
探索衰减率：随训练进度降低探索强度，但保持最小探索概率（如 0.05）以防止过早收敛

持续学习：对抗灾难性遗忘

当前大多数 RL 系统面临一个尴尬现实：学会新任务往往意味着遗忘旧任务。这种灾难性遗忘（catastrophic forgetting）与 Sutton 所倡导的 "持续学习"（continual learning）背道而驰。

工程上，可落地的解决方案包括弹性权重整合（EWC）、渐进神经网络（Progressive Networks）以及经验回放机制的改进。更激进的方案是采用模块化架构：将知识表示为可组合的技能单元，新任务学习仅修改或添加模块，而非重写整个网络。

关键监控指标应包括：

任务间干扰系数：新任务训练后旧任务性能下降百分比
知识保留率：长期任务序列中的平均性能保持度
学习效率：达到目标性能所需的交互步数

Sutton 强调，真正的元学习能力意味着智能体能够 "学会学习"—— 在面对新任务时，利用先前任务的经验加速学习。这要求系统具备任务表征提取能力，能够识别当前任务与历史任务的相似性，并迁移相关策略。

模拟到现实：bridging the gap

经验驱动系统面临一个工程现实：在真实世界中试错成本高昂。机器人损坏、药物实验失败、交易策略亏损 —— 这些都限制了纯经验学习的可能性。

解决方案是模拟到现实的迁移（sim-to-real）。但 Sutton 提醒我们，过度依赖模拟本身也是一种局限。工程上的平衡点是：利用高保真模拟进行大规模探索，同时保留真实世界交互通道用于验证和微调。

具体实践包括：

域随机化（domain randomization）：在模拟中随机化物理参数、视觉属性，训练鲁棒策略
自适应模拟：根据真实世界反馈动态调整模拟参数，缩小 sim-to-real gap
安全探索约束：在真实世界交互中设置硬约束（如力矩限制、边界框），防止危险探索

去中心化研究：组织层面的经验驱动

Sutton 对 AI 发展的思考不仅限于技术层面。2023 年，他与传奇程序员 John Carmack 共同创立 Openmind Research Institute，采用完全开源、去中心化的研究模式。这一选择本身就是 "经验驱动" 理念在组织层面的体现 —— 知识应该通过自由交流和协作产生，而非集中控制。

对于工程团队而言，这意味着建立开放的实验文化：鼓励研究人员记录想法、快速原型、公开失败。Sutton 建议每个研究者都保持笔记本习惯 ——"如果你想让别人关心你的想法，首先自己要关心。写下你的想法，挑战它们，将其发展为值得分享的东西。"

结语：经验时代的工程路径

Rich Sutton 的经验优先理念为 AI 工程指明了一个根本方向：从构建知识库转向构建经验生成器。这要求我们重新思考系统架构、奖励设计、学习机制和组织模式。

关键不在于否定 LLM 的价值，而在于认识到它们的局限性 —— 它们是静态知识的压缩，而非动态经验的生成。真正的发现型 AI 需要具备内在动机、持续学习能力和与世界的直接交互通道。

正如 Sutton 所言，这是一场马拉松而非短跑。经验时代的全面到来可能需要数十年，但工程化的路径已经清晰：从好奇心驱动的探索机制，到对抗遗忘的持续学习架构，再到模拟与现实的有机结合。对于愿意投身这一方向的工程师而言，现在正是构建未来的时刻。

参考来源

NUS News, "Experience beats knowledge: Prof Richard Sutton on reinforcement learning and the future of AI", 2025
Amii, "Rich Sutton, A.M. Turing Award Winner: Understanding Intelligence", 2025

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。