JAX长周期RL环境设计:奖励塑形与状态空间压缩的工程实践基于TycoonLE环境,探讨JAX强化学习中长周期规划任务的奖励塑形策略、课程学习调度与状态空间压缩的工程化参数。2026-06-13reinforcement-learning2026-06