前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >6行代码搞定基本的RL算法,速度围观Reddit高赞帖

6行代码搞定基本的RL算法,速度围观Reddit高赞帖

作者头像
代码医生工作室
发布2019-06-21 17:37:39
1.1K0
发布2019-06-21 17:37:39
举报
文章被收录于专栏:相约机器人相约机器人
来源:reddit

编辑:张佳

今天和大家分享Reddit上的一个热帖,楼主用PyTorch实现了基本的RL算法,而且每个算法都在一个文件夹中完成,即使没有GPU,每个算法也可以在30秒内完成训练。

近日,有开发人员用PyTorch实现了基本的RL算法,比如REINFORCE, vanilla actor-critic, DDPG, A3C, DQN 和PPO。这个帖子在Reddit论坛上获得了195个赞并引发了热议,一起来看一下吧。

特点如下:

每个算法都在一个文件中完成。

每个算法的长度可达100~150行代码。

即使没有GPU,每个算法也可以在30秒内完成训练。

Envs固定在“CartPole-v1”上,你只需关注执行。

minimalRL-pytorch算法:

1. REINFORCE(66行)

2. TD Actor-Critic(97行)

3. DQN(113行,包括重放内存和目标网络)

4. PPO(116行,包括GAE)

5. DDPG(149行,包括OU噪声和软目标更新)

6. A3C(116行)

7. 有什么建议吗?

依赖配置:

1. PyTorch

2. OpenAI GYM

使用:

代码语言:javascript
复制
# Works only with Python 3.# e.g.python3 REINFORCE.pypython3 actor_critic.pypython3 dqn.pypython3 ppo.pypython3 ddpg.pypython3 a3c.py

评论中,不少朋友表示了对楼主的认可和感谢:

Dump7留言:“可以!这是我见过的最美的东西之一。我不是一个能用框架编写NN的人。但我正在努力。这将在很大程度上帮助到我。谢谢你做了这个。但是你能为基本的CNN和RNN制作这样的单一文件代码吗?”

CodeReclaimers表示:“谢谢你分享这个——我知道把代码简化到最少是很费事的。特别好的是,你的代码将依赖配置控制在最低限度。通常都是,我去寻找可以学习的例子,要花至少30多分钟来收集所有依赖配置,结果发现我的平台上少了一些关键的东西。”

Reddit上的讨论:

https://www.reddit.com/r/MachineLearning/comments/bt8sap/p_implementations_of_basic_rl_algorithms_with/

Github资源:

https://github.com/seungeunrho/minimalRL


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 今天和大家分享Reddit上的一个热帖,楼主用PyTorch实现了基本的RL算法,而且每个算法都在一个文件夹中完成,即使没有GPU,每个算法也可以在30秒内完成训练。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档