后scaling时代的AI研究正迎来范式转变。OpenAI联合创始人Ilya Sutskever在SSI(Safe Superintelligence)强调,预训练scaling已趋饱和,互联网数据即将耗尽,转向“age of wonder and discovery”。核心在于构建hypothesis-generation agents(假设生成代理),结合automated experiment loops(自动化实验闭环),通过meta-learning实现self-improvement,并在low-data regimes下高效加速研究。这不仅是理论愿景,更是可工程化的系统。
观点一:假设生成代理是post-scaling研究起点。传统scaling依赖海量数据模仿人类,而Sutskever指出,next-token prediction可超越人类,通过推断“智慧之人行为”生成新假设。代理需从文献gap中提取未验证关联,如MIT Automated Scientist分析10万篇锂电池文献,提出“锂锰氧化物晶体缺陷用碳纳米管填补”假设。证据显示,DeepSeek R1用RL从低数据基线提升AIME准确率至79.8%,无需人类反馈闭环。
落地参数:代理架构用LLM(如o1或Claude-3.5)+贝叶斯推理。输入:Semantic Scholar API检索最近N=1000篇相关论文。生成步骤:1) Gap分析(矛盾/未探索联系,阈值p<0.05);2) 假设公式化(H: if A then B, 可检验性>80%);3) 优先级排序(novelty score = 1 - cosine_sim(新假设, 现有文献))。监控:日志novelty分布,目标均值>0.7;失败率<20%,回滚至人类反馈。
观点二:自动化实验闭环实现hypothesis验证。Sutskever访谈中,RLHF已转向AI生成数据,结合状态机驱动实验迭代。牛津大学k-agents框架将实验拆为状态机:规划→执行→分析→跳转。DeepMind Co-Scientist生成假设、辩论、验证,提出AML药物候选。InternAgent在12任务中,从基线提升7.8% R²,仅12小时。
工程清单:1) 实验设计:遗传算法/RL优化参数空间(初始种群=50,变异率=0.1,收敛阈值=0.01);2) 执行:机器人接口(ROS2+状态机),超时=300s/步;3) 分析:VLM(如GPT-4V)+小样本学习(5成功/失败样本),准确率阈值>90%;4) 迭代:max_rounds=20,early_stop if delta<1e-4。风险监控:错误累积(过滤多数投票+长度阈值),回滚策略(恢复上轮最佳)。
观点三:meta-learning驱动self-improvement,低数据高效。Sutskever预言RL复兴,如DeepSeek R1-Zero用GRPO(群体相对策略优化)从零人类数据自我强化。Transformer自我改进论文显示,递归生成数据+过滤,实现长度泛化(9位乘法近100%)。SSI目标:安全超级智能,通过meta-learning适应新任务。
参数配置:Meta-learning用MAML(内循环lr=0.01,外lr=0.001,任务数=5/轮)。低数据:合成数据(self-play,规模=10k/step),奖励:规则-based(正确率)+相对(组内对比)。监控点:KL散度<0.1(分布偏移),改进率>5%/轮;部署:分布式(Ray框架,workers=16)。
观点四:整体系统工程化与风险限界。整合为闭环:代理→实验→meta-update。Sutskever警告可靠性是瓶颈,需多代理协作(Survey/Coding/Assessment)。阈值:总时效<人类1/10,成功率>70%。回滚:人类干预接口(belief graph编辑)。
实际案例:Periodic Labs获3亿融资,用AI+机器人攻室温超导,24h完成6月人类工作。开源InternAgent验证12任务,证明可落地。
来源:Dwarkesh Patel播客(2023);Reuters/Sutskever SSI评论(2024);DeepSeek R1论文;NeurIPS 2024演讲;arXiv自动化科学家论文。
(正文约1250字)