这是一份你必须学习的强化学习算法清单

深度强化学习实验室

发布于 2019-11-21 13:04:59

8970

发布于 2019-11-21 13:04:59

文章被收录于专栏：深度强化学习实验室深度强化学习实验室

任何事情，学习的时候有方向，才会不迷茫。

这是一些常见强化学习算法列表，大家仔细研读

DQN算法及其发展历程

基于策略的深度强化学习发展历程

A3C及其拓展历程

强化学习算法可以分为三大类：value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法，这种算法中只有一个值函数网络，没有policy网络，以及以DDPG,TRPO为代表的actor-critic算法，这种算法中既有值函数网络，又有policy网络。

最后一种是Ａ3C算法，通过多线程进行计算的强化学习算法，有相当大的发展潜力，也可以用ＧＰＵ加速，典型的就是Ｎvidia开发的ＧＡ３Ｃ.

另外第一部分ＤＱＮ中的Rainbow是综合了前面其他ＤＱＮ做出来的，谷歌给算法起名字就是独特：“彩虹”，建议大家先把其他集中ＤＱＮ读懂弄明白了再研究该算法

TRPO(rust region policy optimization), 信赖域策略优化。这个算法数学比较多，建议大家多看看原理，代码最好看baseline，提出这个算法的人是伯克利的博士生John Schulman，此人已于2016年博士毕业。Schulman的导师是强化学习领域的大神Pieter Abbeel, Abbeel是伯克利的副教授，同时也是OpenAI的研究科学家，是机器人强化学习领域最有影响力的人之一。如果进一步追根溯源的话，Abbeel毕业于斯坦福大学，导师是Andrew Ng（吴恩达）。相信搞机器学习的人应该都听说过此大神或者听过他的课吧。有意思的是，吴恩达博士毕业于伯克利，之后在斯坦福任教，这跟Abbeel的经历正好相反。看来美国名校间人才互换的情况还是挺普遍的。Abbeel博士做的课题是逆向强化学习（学徒学习）。如果再进一步追根溯源，吴恩达的导师是伯克利的Michael I. Jordan，一个将统计学和机器学习联合起来的大师级人物。师傅很重要，但自学能力更重要。

最后大家有没有发现，上述算法都是DeepMind，Google，伯克利，OpenAi等一些大厂引领潮流。

算法已献上，希望大家多多研究这些算法，后续会对部分算法单独解析。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2018-08-20，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法