RL解决'BipedalWalkerHardcore-v2' (SOTA) 更新

CreateAMind

发布于 2019-09-03 18:15:50

1.6K0

发布于 2019-09-03 18:15:50

文章被收录于专栏：CreateAMind

在之前的公众号文章中

RL解决'BipedalWalkerHardcore-v2' (SOTA)

我们介绍了openai gym 环境'BipedalWalkerHardcore-v2'以及我们解决这个环境，达到效果和效率上的 state-of-the-art。

这里对一些结果做一些更新。

Leaderboard:

https://github.com/openai/gym/wiki/Leaderboard#bipedalwalkerhardcore-v2

'BipedalWalkerHardcore-v2' 是 'BipedalWalker-v2' 的困难版本，在解决'BipedalWalkerHardcore-v2'之后我们顺带解决了 'BipedalWalker-v2'，同样达到了leaderboard上的 SOTA。

对于 'BipedalWalker-v2'，我们的结果是只用200个episodes就能达到平均分300，比leaderboard上的第二名快了4倍，我们得到的最高分AverageEpRet是338分：

'BipedalWalkerHardcore-v2' 的随机性非常大，为了得到统计平均值，我们对10000个episodes求了平均，最后得分是319。第二名使用的是CMA-ES算法，进化算法的数据使用效率非常低，需要大量的环境交互数据。我们比第二名多了6分，方差更小，使用的episodes数远小于CMA-ES算法。训练可参看我们的项目：

https://github.com/createamind/DRL/tree/master/spinup/envs/BipedalWalkerHardcore