前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >这是一份你必须学习的强化学习算法清单

这是一份你必须学习的强化学习算法清单

作者头像
深度强化学习实验室
发布2019-11-21 13:04:59
8970
发布2019-11-21 13:04:59
举报

任何事情,学习的时候有方向,才会不迷茫。

这是一些常见强化学习算法列表,大家仔细研读

DQN算法及其发展历程

基于策略的深度强化学习发展历程

A3C及其拓展历程

强化学习算法可以分为三大类:value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法,这种算法中既有值函数网络,又有policy网络。

最后一种是A3C算法,通过多线程进行计算的强化学习算法,有相当大的发展潜力,也可以用GPU加速,典型的就是Nvidia开发的GA3C.

另外第一部分DQN中的Rainbow是综合了前面其他DQN做出来的,谷歌给算法起名字就是独特:“彩虹”,建议大家先把其他集中DQN读懂弄明白了再研究该算法

TRPO(rust region policy optimization), 信赖域策略优化。这个算法数学比较多,建议大家多看看原理,代码最好看baseline,提出这个算法的人是伯克利的博士生John Schulman,此人已于2016年博士毕业。Schulman的导师是强化学习领域的大神Pieter Abbeel, Abbeel是伯克利的副教授,同时也是OpenAI的研究科学家,是机器人强化学习领域最有影响力的人之一。如果进一步追根溯源的话,Abbeel毕业于斯坦福大学,导师是Andrew Ng(吴恩达)。相信搞机器学习的人应该都听说过此大神或者听过他的课吧。有意思的是,吴恩达博士毕业于伯克利,之后在斯坦福任教,这跟Abbeel的经历正好相反。看来美国名校间人才互换的情况还是挺普遍的。Abbeel博士做的课题是逆向强化学习(学徒学习)。如果再进一步追根溯源,吴恩达的导师是伯克利的Michael I. Jordan,一个将统计学和机器学习联合起来的大师级人物。师傅很重要,但自学能力更重要。

最后大家有没有发现,上述算法都是DeepMind,Google,伯克利,OpenAi等一些大厂引领潮流。

算法已献上,希望大家多多研究这些算法,后续会对部分算法单独解析。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度强化学习实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档