首页 › 2025年 › 10月 › MiniMind 中实现自定义 AdamW 优化器与梯度裁剪:单 GPU 稳定训练 26M GPT
2025年10月17日 mlops

MiniMind 中实现自定义 AdamW 优化器与梯度裁剪:单 GPU 稳定训练 26M GPT

在 MiniMind 项目中,使用自定义 AdamW 优化器结合梯度裁剪,实现单 GPU 上 26M 参数 GPT 模型的稳定训练,避免长序列梯度导致的 NaN 溢出。提供参数配置、实现代码与监控要点。

内容加载中...