Hotdry.

Latest Essays

最新见解 · 第 393 页

继续沿着时间线阅读近期的工程实践与技术观察。

已收录 21498 篇文章主题 307 个

最新见解

近期的思考与工程笔记。

rlhf ppo hyperparameters tuning implementation details

title: "RLHF 训练中 PPO 超参数调优的工程实现细节" date: "2026-02-08T05:19:12+08:00" excerpt: "深入解析 RLHF 训练中 PPO 算法的关键超参数设置,包括 KL 散度惩罚、裁剪范围、学习率与 GAE 参数的经验值,以及保障训练稳定性的工程实践。" category: "ai-systems"

2026-02-08general2026-02
上一页第 393 / 1075 页下一页