Sutskever 和 LeCun 的最新观点标志着 AI 发展范式的重大转向:单纯依赖 GPU 规模化训练(scaling laws)已接近极限,未来突破将来自推理时工程化(inference-time engineering)。Ilya Sutskever 在 2025 年播客中直言:“规模法则正在接近极限,强化学习消耗巨大却非真正扩展,行业正从规模驱动回归研究驱动。” Yann LeCun 则长期批评 LLM 的“暴力美学”,主张转向世界模型与测试时计算,以高效利用有限资源。
这一判断并非空穴来风。证据显示,预训练数据已耗尽峰值,全球高质量文本/图像资源有限,合成数据虽兴起但质量不稳。模型在基准测试(如 MMLU)满分,却在实际任务(如 bug 修复循环)翻车:Sutskever 举例,模型修一个 bug 引入另一个,反复切换,暴露泛化失效。同时,训练成本飙升——GPT-4 级模型需数亿美元 GPU 时长,边际收益递减:从 GPT-3 到 GPT-4 参数增 10 倍,性能仅线性提升。Epoch AI 报告证实,SOTA 模型规模已从万亿参数回落至 4000 亿,推理需求占总算力 70% 以上,远超训练。
转向推理时工程的核心在于“测试时缩放”(test-time scaling):不扩预训练,而是动态分配推理 compute,实现 MoE 动态路由、测试时适应、蒸馏压缩与代理优化管道。这些方法可将有效智能提升 2-5 倍,同时降低 50%+ 成本。
1. MoE 动态路由:专家混合激活,节省闲置参数
Mixture of Experts (MoE) 通过路由器动态激活子专家,避免全参数激活。Mixtral 8x7B 等模型证明,激活率降至 12.5% 时,性能超 Llama 70B。
落地参数:
- 路由器类型:Top-K gating (K=2),负载均衡损失权重 0.01,避免专家崩溃。
- 容量因子 (capacity factor):1.2-2.0,控制每层 token 吞吐;过低导致丢弃,高则浪费。
- 专家数:8-128,根据总参数 10%-20% 激活。路由噪声:辅助 Gumbel 噪声温度 0.1,提升探索。
- 监控阈值:专家利用率 >90% 均衡,回滚至静态 MoE;延迟 <2x 稠密模型。
工程实践:在 vLLM/TGI 部署,路由缓存命中率 >95%。风险:路由抖动导致不稳,限 top-2 + jitter 平滑。
2. 测试时适应(Test-Time Adaptation):链式思考与自一致
如 OpenAI o1,测试时生成长 CoT(Chain-of-Thought),模拟人类推理。DeepSeek R1 演示:推理 token 增 20x,准确率升 30%。
落地清单:
- CoT 预算:复杂任务 4k-32k tokens,采样温度 0.7,自回归生成。
- 自一致 (Self-Consistency):采样 8-64 条路径,取多数投票;数学任务阈值一致率 >70%。
- 测试时训练 (TTT):少样本适应,学习率 1e-5,步数 100-500,冻结骨干。
- 阈值:困惑度 (perplexity) <2.0 提前停止;超时 60s 回退 greedy decode。
部署:TorchServe + beam search (width=4),监控 token/use 比 <1.5。风险:幻觉放大,集成 Verifier 模块过滤低置信路径。
3. 蒸馏(Distillation):大模型知识压缩至小模型
Chinchilla 定律下,小模型 + 多数据优于大模型。GPT-4o/Claude 3.5 Sonnet 参数降至 2000-4000 亿,推理速 2x。
参数配置:
- 教师-学生框架:KL 散度损失 + CE,温度 2-5,α=0.5 软标签权重。
- 数据比例:教师生成 10x 原始数据,过滤置信 >0.9。
- 蒸馏比率:学生参数 = 教师 10%-25%,训练 tokens 教师 2x。
- 监控:FID/KL div <0.1,性能衰减 <5%。
实践:HuggingFace DistilBERT 管道,量化 INT8。回滚:A/B 测试,胜率 >95% 上线。风险:知识丢失,层级匹配对齐。
4. 代理计算优化管道(Agentic Compute Optimization)
Agentic AI 如 ReAct/o1,工具调用 + 循环推理,动态分配 compute。
优化清单:
- ReAct 循环:Observe-Think-Act,最大迭代 10,回想缓冲 1k 步。
- 工具路由:LLM 嵌入 cosine sim >0.8 选工具;并行调用 4-8。
- Compute 预算:总 tokens 64k/查询,优先复杂分支 (entropy >2.0)。
- 监控点:成功率 >85%,E2E 延迟 <10s;异常回滚人类干预。
框架:LangChain/AutoGen,集成 Pinecone 检索。风险:无限循环,设置 TTL 30s + 价值函数剪枝。
这些工程实践已在生产落地:Anthropic Claude 用 MoE + TTT 推理提速;xAI Grok 代理管道优化 agent。总体阈值:成本/TPS 比 <0.01$/k tokens,A/B 胜率 >90%。
实施路线:1) 基线 MoE 蒸馏;2) 叠加 TTT/agent;3) 监控 drift,季度重蒸馏。回滚策略:影子流量 20%,渐进迁移。
来源:
(字数:1256)