后参数Scaling：推理时扩展、MoE路由与RAG工程绕LLM极限

Ilya Sutskever 与 Yann LeCun 的 scaling 辩论标志 LLM 参数扩展进入高原期，前者称预训练 scaling 逼近极限，需回归研究驱动，后者视 LLM 为死胡同，强调世界模型。但工程实践无需等待新范式，可通过推理时扩展、MoE 路由与 RAG 高效绕过参数瓶颈，实现性能跃升。

1. 推理时扩展：测试时计算注入 “思考” 能力

传统 scaling 依赖预训练参数堆叠，但 Sutskever 指出 RL 等后训练阶段计算浪费巨大。推理时扩展（Inference-Time Scaling/Test-Time Compute）在部署期动态分配额外 FLOPs，提升复杂推理，而非静态模型。

核心机制：类似 OpenAI o1 模型，输入查询时生成多条中间推理链（Chain-of-Thought, CoT），自评并迭代最佳路径。不同于训练时 CoT，此处为在线搜索树状推理路径。

工程参数与阈值：

预算阈值：推理 FLOPs 预算设为预训练 FLOPs 的 1-10 倍。示例：7B 基模型，单查询预算 1e11-1e12 FLOPs（~100-1000 tokens 生成）。
采样策略：温度 0.7-0.9，top-p 0.95；生成 K=16-64 条备选 CoT，Beam Search 宽度 4-8。
自评模块：轻量价值头（value head，额外 1% 参数），评分公式：score = log P (correct|path) + confidence_bonus。阈值 < 0.5 重采样。
超时 / 预算控制：最大步数 128-256；延迟目标 < 10s / 查询，回退至贪婪解码。

部署清单：

集成 vLLM 或 TensorRT-LLM，支持动态 KV 缓存扩展。
监控指标：有效性（准确率提升 20-50% on GSM8K），延迟（P95<5s）。
A/B 测试：对比 baseline，MMLU 提升 10-30%。
回滚：若延迟超标，降 K 至 8。

实际证据：o1-preview 在数学基准超 GPT-4o 20%，证明推理时 scaling 曲线仍陡峭。

2. MoE 路由：稀疏激活万亿参数无负担

MoE（Mixture of Experts）通过路由器动态激活子专家，参数达万亿但激活仅数百亿，绕过稠密模型内存墙。Sutskever 时代 OpenAI 探索 MoE，Grok-1（314B MoE）证明可行。

核心机制：Top-K 路由（K=2-8），负载均衡损失 aux_loss=0.01*std (路由 logits)，防止崩溃。

工程参数与阈值：

专家数：32-128，总参数 1T+，激活 2 层 / 专家。
路由阈值：分数 > 0.1 激活；容量因子 1.2-2.0，避免溢出。
硬件适配：每专家 shard 至多 GPU，all-to-all 通信优化（~20% 开销）。
训练 / 推理：DeepSpeed-MoE，FSDP wrapping；推理吞吐 1.5-3x 稠密同规模。

部署清单：

框架：Fairseq-MOE 或 Tutel，路由器 FP16。
监控：专家利用率 > 80%，路由熵 > 2.0（多样性）。
微调：LoRA on 路由器，1epoch 数据子集。
容错：备用稠密 fallback，专家失败率 < 1%。

Mixtral 8x7B MoE 在 MT-Bench 超 Llama-70B，成本减半，验证 post-scaling 高效。

3. RAG：外部检索补知识断层

参数 scaling 遇数据墙（Sutskever 警告），RAG 注入实时检索，绕内部知识极限。LeCun 批评 LLM 无世界理解，RAG 即外部 “世界模型” 代理。

核心机制：查询→嵌入检索（BM25+Dense）→重排序→融合提示。高级：HyDE（假设文档扩展）+ColBERT。

工程参数与阈值：

检索库：10M-1B chunks，FAISS/Elasticsearch；召回 Top-20-50。
嵌入模型：bge-large-en（dim=1024），余弦 > 0.7 阈值。
融合：Prompt 压缩至 4K tokens，权重 α=0.3 检索 + 0.7 生成。
幻觉抑制：置信阈值 <0.6 拒绝，或加 “根据文档” 约束。

部署清单：

管道：LangChain/RAGFlow，Pinecone vector DB。
监控：忠实度（RAGAS score>0.9），延迟 < 2s 检索。
增量：每日索引更新，清理低质 chunk。
评估：RAG-Bench，F1>0.85。

LlamaIndex RAG 在 HotpotQA 提升 30%，无需重训证明实用。

集成实践与风险管理

组合三者：MoE 基模型 + RAG 预填充 + 推理时 CoT。总提升：MMLU+25%，成本控制在 GPT-4o 50%。风险：路由崩溃（加 noisy top-k），检索噪声（多查询），计算爆炸（预算 caps）。生产阈值：ROI>2x（性能 / 成本），A/B 胜率 > 60%。

Sutskever 预言 “正确规模化”，这些即工程路径。资料来源：Sutskever 36kr 采访（“规模法则接近极限”）；LeCun X 讨论；Deep (Learning) Focus scaling 分析。