Hotdry.

Article

经验驱动发现系统:Rich Sutton 的 AI 工程哲学

从 Rich Sutton 的经验优先理念出发,探讨构建具备内在动机和持续学习能力的发现型 AI 系统的工程实践路径与关键参数。

2026-06-10ai-systems

大型语言模型(LLM)的爆发让 AI 领域陷入一种集体幻觉:似乎堆叠更多参数、喂入更多静态数据就能通往通用智能。然而,2024 年图灵奖得主 Rich Sutton 在 NUS 的演讲中用一个婴儿爬行的视频给出了尖锐的反驳 —— 婴儿通过与世界交互产生新知识,而这是当前最先进的 LLM 所不具备的能力。Sutton 将其概括为 "Experience beats knowledge"(经验优于知识),并预言我们正站在 "经验时代"(Era of Experience)的门槛上。

这一理念对 AI 工程实践具有根本性意义。如果智能的本质是经验而非知识,那么我们的系统架构就需要从 "知识容器" 转向 "经验生成器"。本文将探讨如何工程化地构建具备科学发现能力的经验驱动型 AI 系统。

从静态数据到动态交互:范式转换

传统机器学习范式将智能视为从静态数据集中提取模式的能力。监督学习、甚至大部分强化学习应用都遵循这一逻辑:先收集数据,再训练模型,最后部署推理。Sutton 指出这种范式的根本局限 —— 它切断了智能体与真实世界的持续交互回路。

经验驱动的发现系统要求一种不同的架构设计。智能体必须能够持续地、自主地与环境交互,将每一次交互转化为学习信号。这意味着系统需要具备三个核心能力:感知 - 行动闭环、内在动机生成、以及元学习能力(learning to learn)。

感知 - 行动闭环要求系统具备实时环境接口。不同于批处理模式的数据输入,经验驱动系统需要流式处理来自传感器、模拟器或真实世界接口的连续信号。延迟控制成为关键工程参数 —— 感知到行动的端到端延迟应控制在 100ms 以内,以确保交互的因果连贯性。

内在动机:发现引擎的工程化

经验驱动系统的核心挑战在于:当外部奖励信号稀疏或不存在时,智能体如何保持探索动力?Sutton 的研究表明,答案在于内在动机机制 —— 智能体需要具备自主生成目标的能力。

在工程实现层面,内在动机可通过信息增益(information gain)或学习进度(learning progress)来量化。好奇心驱动的探索算法(如 ICM、RND)提供了一种可行路径:智能体预测自身状态转移或环境动态,将预测误差作为内在奖励信号。当智能体进入熟悉区域时,预测准确,内在奖励降低;进入新区域时,预测误差增大,内在奖励上升,从而驱动探索。

关键工程参数包括:

  • 好奇心系数(curiosity coefficient):内在奖励与外部奖励的权重比例,通常初始设置为 0.1-0.3,随训练动态调整
  • 预测网络容量:应略小于策略网络,避免智能体陷入 "可预测但无用" 的循环(如电视雪花噪声)
  • ** episodic 记忆缓存 **:存储最近 N 个状态(N 通常为 1000-10000),用于计算状态新颖度
  • 探索衰减率:随训练进度降低探索强度,但保持最小探索概率(如 0.05)以防止过早收敛

持续学习:对抗灾难性遗忘

当前大多数 RL 系统面临一个尴尬现实:学会新任务往往意味着遗忘旧任务。这种灾难性遗忘(catastrophic forgetting)与 Sutton 所倡导的 "持续学习"(continual learning)背道而驰。

工程上,可落地的解决方案包括弹性权重整合(EWC)、渐进神经网络(Progressive Networks)以及经验回放机制的改进。更激进的方案是采用模块化架构:将知识表示为可组合的技能单元,新任务学习仅修改或添加模块,而非重写整个网络。

关键监控指标应包括:

  • 任务间干扰系数:新任务训练后旧任务性能下降百分比
  • 知识保留率:长期任务序列中的平均性能保持度
  • 学习效率:达到目标性能所需的交互步数

Sutton 强调,真正的元学习能力意味着智能体能够 "学会学习"—— 在面对新任务时,利用先前任务的经验加速学习。这要求系统具备任务表征提取能力,能够识别当前任务与历史任务的相似性,并迁移相关策略。

模拟到现实:bridging the gap

经验驱动系统面临一个工程现实:在真实世界中试错成本高昂。机器人损坏、药物实验失败、交易策略亏损 —— 这些都限制了纯经验学习的可能性。

解决方案是模拟到现实的迁移(sim-to-real)。但 Sutton 提醒我们,过度依赖模拟本身也是一种局限。工程上的平衡点是:利用高保真模拟进行大规模探索,同时保留真实世界交互通道用于验证和微调。

具体实践包括:

  • 域随机化(domain randomization):在模拟中随机化物理参数、视觉属性,训练鲁棒策略
  • 自适应模拟:根据真实世界反馈动态调整模拟参数,缩小 sim-to-real gap
  • 安全探索约束:在真实世界交互中设置硬约束(如力矩限制、边界框),防止危险探索

去中心化研究:组织层面的经验驱动

Sutton 对 AI 发展的思考不仅限于技术层面。2023 年,他与传奇程序员 John Carmack 共同创立 Openmind Research Institute,采用完全开源、去中心化的研究模式。这一选择本身就是 "经验驱动" 理念在组织层面的体现 —— 知识应该通过自由交流和协作产生,而非集中控制。

对于工程团队而言,这意味着建立开放的实验文化:鼓励研究人员记录想法、快速原型、公开失败。Sutton 建议每个研究者都保持笔记本习惯 ——"如果你想让别人关心你的想法,首先自己要关心。写下你的想法,挑战它们,将其发展为值得分享的东西。"

结语:经验时代的工程路径

Rich Sutton 的经验优先理念为 AI 工程指明了一个根本方向:从构建知识库转向构建经验生成器。这要求我们重新思考系统架构、奖励设计、学习机制和组织模式。

关键不在于否定 LLM 的价值,而在于认识到它们的局限性 —— 它们是静态知识的压缩,而非动态经验的生成。真正的发现型 AI 需要具备内在动机、持续学习能力和与世界的直接交互通道。

正如 Sutton 所言,这是一场马拉松而非短跑。经验时代的全面到来可能需要数十年,但工程化的路径已经清晰:从好奇心驱动的探索机制,到对抗遗忘的持续学习架构,再到模拟与现实的有机结合。对于愿意投身这一方向的工程师而言,现在正是构建未来的时刻。


参考来源

  • NUS News, "Experience beats knowledge: Prof Richard Sutton on reinforcement learning and the future of AI", 2025
  • Amii, "Rich Sutton, A.M. Turing Award Winner: Understanding Intelligence", 2025

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com