原文题目:PPO Dash: Improving Generalization in Deep Reinforcement Learning
摘要:深度强化学习容易发生过度拟合,传统的基准(如Atari 2600基准)会加剧这一问题。障碍塔挑战通过使用随机环境和单独的种子进行训练、验证和测试来解决这一问题。本文研究了PPO算法的各种改进和最佳实践,利用障碍塔挑战,对其在泛化方面的影响进行了实证研究。我们的实验表明,该组合在障碍塔挑战提供了最先进的表现。
原文地址:https://arxiv.org/abs/1907.06704
作者:Joe Booth
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。