首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习之——强化学习中的模仿学习

模仿学习

强化学习的典型应用场景是人为设定一个奖赏函数,然后不断的反馈给机器,从而提高机器的策略。但是现实中,很多时候可以得到人类专家的决策过程范例,如何将这种范例引入强化学习中,就是“模仿学习”(imitation learning)要解决的问题。

直接模仿学习

从零开始学习一个策略需要较长时间的探索,如果能够从人类经验中学习出一个较好的初始策略,那么可以极大的提高强化学习的效率。

直接模仿人类决策的状态-动作对的方法就是“直接模仿学习”。与蒙特卡洛强化学习类似,这种方法将人类专家提供的状态-动作序列作为采样,然后用来拟合一个Q(x,a)函数,这样就可以得到一个较好的策略。

逆强化学习

有些任务设定奖赏函数是比较困难的,从人类专家提供的决策序列中学习出奖赏函数,就是“逆强化学习”的目标。这一方法最早是吴恩达在2004年提出的。

此方法的思路是:假定奖赏函数是状态的线性函数,我们的目标就是学习出线性方程里面的权重w;这样,给定人类的决策序列就可以计算出其累积奖赏;学习的目标就是找到权重w和策略π,使得策略π的累积奖赏尽可能接近人类决策序列的累积奖赏。因此,这一方法可以同时学得奖赏函数和策略。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180106A0SS0D00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券