任何事情,学习的时候有方向,才会不迷茫。
这是一些常见强化学习算法列表,大家仔细研读
DQN算法及其发展历程
基于策略的深度强化学习发展历程
A3C及其拓展历程
强化学习算法可以分为三大类:value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法,这种算法中既有值函数网络,又有policy网络。
最后一种是A3C算法,通过多线程进行计算的强化学习算法,有相当大的发展潜力,也可以用GPU加速,典型的就是Nvidia开发的GA3C.
另外第一部分DQN中的Rainbow是综合了前面其他DQN做出来的,谷歌给算法起名字就是独特:“彩虹”,建议大家先把其他集中DQN读懂弄明白了再研究该算法
TRPO(rust region policy optimization), 信赖域策略优化。这个算法数学比较多,建议大家多看看原理,代码最好看baseline,提出这个算法的人是伯克利的博士生John Schulman,此人已于2016年博士毕业。Schulman的导师是强化学习领域的大神Pieter Abbeel, Abbeel是伯克利的副教授,同时也是OpenAI的研究科学家,是机器人强化学习领域最有影响力的人之一。如果进一步追根溯源的话,Abbeel毕业于斯坦福大学,导师是Andrew Ng(吴恩达)。相信搞机器学习的人应该都听说过此大神或者听过他的课吧。有意思的是,吴恩达博士毕业于伯克利,之后在斯坦福任教,这跟Abbeel的经历正好相反。看来美国名校间人才互换的情况还是挺普遍的。Abbeel博士做的课题是逆向强化学习(学徒学习)。如果再进一步追根溯源,吴恩达的导师是伯克利的Michael I. Jordan,一个将统计学和机器学习联合起来的大师级人物。师傅很重要,但自学能力更重要。
最后大家有没有发现,上述算法都是DeepMind,Google,伯克利,OpenAi等一些大厂引领潮流。
算法已献上,希望大家多多研究这些算法,后续会对部分算法单独解析。