大型语言模型(LLM)的爆发让 AI 领域陷入一种集体幻觉:似乎堆叠更多参数、喂入更多静态数据就能通往通用智能。然而,2024 年图灵奖得主 Rich Sutton 在 NUS 的演讲中用一个婴儿爬行的视频给出了尖锐的反驳 —— 婴儿通过与世界交互产生新知识,而这是当前最先进的 LLM 所不具备的能力。Sutton 将其概括为 "Experience beats knowledge"(经验优于知识),并预言我们正站在 "经验时代"(Era of Experience)的门槛上。
这一理念对 AI 工程实践具有根本性意义。如果智能的本质是经验而非知识,那么我们的系统架构就需要从 "知识容器" 转向 "经验生成器"。本文将探讨如何工程化地构建具备科学发现能力的经验驱动型 AI 系统。
从静态数据到动态交互:范式转换
传统机器学习范式将智能视为从静态数据集中提取模式的能力。监督学习、甚至大部分强化学习应用都遵循这一逻辑:先收集数据,再训练模型,最后部署推理。Sutton 指出这种范式的根本局限 —— 它切断了智能体与真实世界的持续交互回路。
经验驱动的发现系统要求一种不同的架构设计。智能体必须能够持续地、自主地与环境交互,将每一次交互转化为学习信号。这意味着系统需要具备三个核心能力:感知 - 行动闭环、内在动机生成、以及元学习能力(learning to learn)。
感知 - 行动闭环要求系统具备实时环境接口。不同于批处理模式的数据输入,经验驱动系统需要流式处理来自传感器、模拟器或真实世界接口的连续信号。延迟控制成为关键工程参数 —— 感知到行动的端到端延迟应控制在 100ms 以内,以确保交互的因果连贯性。
内在动机:发现引擎的工程化
经验驱动系统的核心挑战在于:当外部奖励信号稀疏或不存在时,智能体如何保持探索动力?Sutton 的研究表明,答案在于内在动机机制 —— 智能体需要具备自主生成目标的能力。
在工程实现层面,内在动机可通过信息增益(information gain)或学习进度(learning progress)来量化。好奇心驱动的探索算法(如 ICM、RND)提供了一种可行路径:智能体预测自身状态转移或环境动态,将预测误差作为内在奖励信号。当智能体进入熟悉区域时,预测准确,内在奖励降低;进入新区域时,预测误差增大,内在奖励上升,从而驱动探索。
关键工程参数包括:
- 好奇心系数(curiosity coefficient):内在奖励与外部奖励的权重比例,通常初始设置为 0.1-0.3,随训练动态调整
- 预测网络容量:应略小于策略网络,避免智能体陷入 "可预测但无用" 的循环(如电视雪花噪声)
- ** episodic 记忆缓存 **:存储最近 N 个状态(N 通常为 1000-10000),用于计算状态新颖度
- 探索衰减率:随训练进度降低探索强度,但保持最小探索概率(如 0.05)以防止过早收敛
持续学习:对抗灾难性遗忘
当前大多数 RL 系统面临一个尴尬现实:学会新任务往往意味着遗忘旧任务。这种灾难性遗忘(catastrophic forgetting)与 Sutton 所倡导的 "持续学习"(continual learning)背道而驰。
工程上,可落地的解决方案包括弹性权重整合(EWC)、渐进神经网络(Progressive Networks)以及经验回放机制的改进。更激进的方案是采用模块化架构:将知识表示为可组合的技能单元,新任务学习仅修改或添加模块,而非重写整个网络。
关键监控指标应包括:
- 任务间干扰系数:新任务训练后旧任务性能下降百分比
- 知识保留率:长期任务序列中的平均性能保持度
- 学习效率:达到目标性能所需的交互步数
Sutton 强调,真正的元学习能力意味着智能体能够 "学会学习"—— 在面对新任务时,利用先前任务的经验加速学习。这要求系统具备任务表征提取能力,能够识别当前任务与历史任务的相似性,并迁移相关策略。
模拟到现实:bridging the gap
经验驱动系统面临一个工程现实:在真实世界中试错成本高昂。机器人损坏、药物实验失败、交易策略亏损 —— 这些都限制了纯经验学习的可能性。
解决方案是模拟到现实的迁移(sim-to-real)。但 Sutton 提醒我们,过度依赖模拟本身也是一种局限。工程上的平衡点是:利用高保真模拟进行大规模探索,同时保留真实世界交互通道用于验证和微调。
具体实践包括:
- 域随机化(domain randomization):在模拟中随机化物理参数、视觉属性,训练鲁棒策略
- 自适应模拟:根据真实世界反馈动态调整模拟参数,缩小 sim-to-real gap
- 安全探索约束:在真实世界交互中设置硬约束(如力矩限制、边界框),防止危险探索
去中心化研究:组织层面的经验驱动
Sutton 对 AI 发展的思考不仅限于技术层面。2023 年,他与传奇程序员 John Carmack 共同创立 Openmind Research Institute,采用完全开源、去中心化的研究模式。这一选择本身就是 "经验驱动" 理念在组织层面的体现 —— 知识应该通过自由交流和协作产生,而非集中控制。
对于工程团队而言,这意味着建立开放的实验文化:鼓励研究人员记录想法、快速原型、公开失败。Sutton 建议每个研究者都保持笔记本习惯 ——"如果你想让别人关心你的想法,首先自己要关心。写下你的想法,挑战它们,将其发展为值得分享的东西。"
结语:经验时代的工程路径
Rich Sutton 的经验优先理念为 AI 工程指明了一个根本方向:从构建知识库转向构建经验生成器。这要求我们重新思考系统架构、奖励设计、学习机制和组织模式。
关键不在于否定 LLM 的价值,而在于认识到它们的局限性 —— 它们是静态知识的压缩,而非动态经验的生成。真正的发现型 AI 需要具备内在动机、持续学习能力和与世界的直接交互通道。
正如 Sutton 所言,这是一场马拉松而非短跑。经验时代的全面到来可能需要数十年,但工程化的路径已经清晰:从好奇心驱动的探索机制,到对抗遗忘的持续学习架构,再到模拟与现实的有机结合。对于愿意投身这一方向的工程师而言,现在正是构建未来的时刻。
参考来源
- NUS News, "Experience beats knowledge: Prof Richard Sutton on reinforcement learning and the future of AI", 2025
- Amii, "Rich Sutton, A.M. Turing Award Winner: Understanding Intelligence", 2025
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。