首页 › 2025年 › 10月 › MiniMind 单GPU训练优化:梯度累积与动态批大小处理长序列
2025年10月17日 mlops

MiniMind 单GPU训练优化:梯度累积与动态批大小处理长序列

针对MiniMind 26M GPT单GPU训练,给出梯度累积与动态批大小的PyTorch实现参数,避免OOM并处理长序列。

内容加载中...