用模仿学习来学习增强学习

文章来源：企鹅号 - 实践家园

国庆7天乐！祝各位朋友国庆玩的愉快！

今天Flood继续在AI的游乐场玩一玩，和大家分享ICLR19的最新投稿paper《Learning to Reinforcement Learning by Imitation》。大家如果有兴趣阅读paper原文可以上openreview.net去查找。

这篇paper依然是Meta Learning的范畴，特别是Meta Reinforcement Learning的范畴。名字听起来很酷炫，通过模仿学习来学习增强学习。可能不了解的朋友会不是很理解，没有关系，我尝试用最简单的语言来说说这篇paper到底要做什么。

不得不承认今天聊的这个学术味就更重了，没有研究这方面的童鞋可能对此完全没有了解。不过我想没有关系，希望下面的内容能够让你对这个领域有一个最快的认识。

1.Meta Reinforcement Learning是要做什么呢？

现在的Reinforcement Learning我们知道面临着严重的sample inefficiency问题，说人话就是要对于一个任务要训练特别特别久，消耗特别大的计算资源。这一点也不类人啊。我们人分分钟可以学会一个新游戏。那么怎么才能让人工智能也能快速的学习一个新游戏呢？那么我们就希望能够学习一个增强学习算法，对，你没有听错，这个算法本身也是学的，然后我们希望说这个学到的算法能够更快的学习新的任务。这就是Meta Reinforcement Learning要做的事情。

2. Meta Reinforcement Learning的核心是什么？

Meta Reinforcement Learning的核心是学习一个好的Prior，也就是Meta Knowledge，然后有了这些knowledge我们就可以快速学习新的task了。说一下人话，就是我们人之所以能够快速的学习新游戏，是因为我们对游戏有一个已有的认知，我们一看新游戏我们脑子里就能根据已有的知识知道大致应该怎么玩了，然后玩几把也就找到方法了。但是要玩好玩到传说水平也依然需要大量的练习才能。

3. 怎么来learn to reinforcement learn学习增强学习呢？

最最基本的做法就是joint training，我们同时先学很多游戏，玩很多游戏，然后我们就学到了一个神经网络，利用这个学到的知识，我们或许可以在新的游戏中学得快一点。但是这个方法太简单粗暴了，我们没办法保证学到的知识有用啊。简单的说这种做法是不经过大脑没有分析的。就像我们玩炉石传说，我们可能玩了偶数萨，任务贼，奇数骑，奥秘法，但是我们如果只是傻傻玩没有获得更高的经验的话，我们在玩新的卡组比如机械克苏恩牧的时候就会傻逼。这就是所谓的知其然不知其所以然。

那么接下来更进一步的办法是我们构造我们的神经网络，让神经网络能够不断的接收过去的历史信息，我们希望让神经网络学习到的是如何根据历史信息去自适应新的环境。也就是说我们学习一个分析环境的方法，这样我们就可以在新环境中更明白应该怎么去做。授人与鱼不如授人与渔是吧。这个也是目前Meta Reinforcement Learning的基本方法。

4. 这篇ICLR19说什么呢？

这篇paper思考的问题是我虽然通过Meta Reinforcement Learning的算法能使之后面对新任务的时候学习更快，但是我训练这个Meta Reinforcement Learning的神经网络也很慢啊。能不能让这个过程也更快呢？

模仿学习比增强学习快很多，那么，我们能不能用模仿学习来学会增强学习呢？

那答案当然是可以。

实际上，Meta Learning的终极奥义就是我们可以让神经网络学习任意的目标，只要我们能够给定一个监督信号将梯度传递下去。比如说图灵测试这个问题，我们可以假设有一个这样的神经网络，我们训练的时候不要管这个神经网络要做什么，它可以自己去网上找信息，去看奇葩说，但是我们就要求测试的时候能够通过图灵测试，那么只要我们能够把图灵测试的监督信号传递给之前的训练，我们就能够训练这个神经网络。

所以，这里就是我们用模仿学习来给神经网络训练目标，让其加快增强学习的训练。

直接解释一下下图：我们meta-train这个神经网络的时候，我们对于一个task，先采集样本，然后用RL训练几步，对这里就是几步，然后我们不管这几步到底训练得怎么样，我就要求神经网络能够达到模仿学习专家给出的水平。这样，通过这种强要求，反复使用不同的任务进行训练，训练到一定程度，耶，这个神经网络真的只要用RL训练几步，效果就比较接近模仿学习的样本了，这就达到了学会增强学习的目的。对于一个新的任务，也就可以快速学习了！

这个idea完全继承了MAML的思想，只是在处理方式上把增强学习和模仿学习结合在了一起，那么效果也是显然会有的。不过我看这篇文章的实验做的不是很充分，有可能会被拒掉。但想法是好的，也算创新。

今天对这篇paper的讲解可能比较粗糙，感兴趣的朋友还是去看看原文吧。

对于这篇paper，我个人的启发就是Meta Learning的潜力非常大，把它挖深了可以有无限可能。

分析就到这，有相关问题欢迎后台留言，谢谢！

发表于: 2019-03-222019-03-22 21:11:39
原文链接：https://kuaibao.qq.com/s/20190322B0M51800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

用模仿学习来学习增强学习

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐