Category

reinforcement-learning

共 1 篇文章。

JAX长周期RL环境设计：奖励塑形与状态空间压缩的工程实践

基于TycoonLE环境，探讨JAX强化学习中长周期规划任务的奖励塑形策略、课程学习调度与状态空间压缩的工程化参数。

2026-06-13reinforcement-learning2026-06