前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >RL解决'BipedalWalkerHardcore-v2' (SOTA) 更新

RL解决'BipedalWalkerHardcore-v2' (SOTA) 更新

作者头像
用户1908973
发布2019-09-03 18:15:50
1.6K0
发布2019-09-03 18:15:50
举报
文章被收录于专栏:CreateAMindCreateAMind

在之前的公众号文章中

RL解决'BipedalWalkerHardcore-v2' (SOTA)

我们介绍了openai gym 环境'BipedalWalkerHardcore-v2'以及我们解决这个环境,达到效果和效率上的 state-of-the-art。

这里对一些结果做一些更新。

Leaderboard:

https://github.com/openai/gym/wiki/Leaderboard#bipedalwalkerhardcore-v2

'BipedalWalkerHardcore-v2' 是 'BipedalWalker-v2' 的困难版本,在解决'BipedalWalkerHardcore-v2'之后我们顺带解决了 'BipedalWalker-v2', 同样达到了leaderboard上的 SOTA。

对于 'BipedalWalker-v2',我们的结果是只用200个episodes就能达到平均分300,比leaderboard上的第二名快了4倍,我们得到的最高分AverageEpRet是338分:

'BipedalWalkerHardcore-v2' 的随机性非常大,为了得到统计平均值,我们对10000个episodes求了平均,最后得分是319。第二名使用的是CMA-ES算法,进化算法的数据使用效率非常低,需要大量的环境交互数据。我们比第二名多了6分,方差更小,使用的episodes数远小于CMA-ES算法。训练可参看我们的项目:

https://github.com/createamind/DRL/tree/master/spinup/envs/BipedalWalkerHardcore

我们发现其实跨过去stump的策略才是局部最优解,如果想要得到高分,需要先跳到stump上,然后利用stump作为跳板,这样可以做到用最少的能量移动最远的距离(即站得越高,跳得越远)。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • RL解决'BipedalWalkerHardcore-v2' (SOTA)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档