机器学习之——强化学习中的模仿学习

文章来源：企鹅号 - 人工智能技术

模仿学习

强化学习的典型应用场景是人为设定一个奖赏函数，然后不断的反馈给机器，从而提高机器的策略。但是现实中，很多时候可以得到人类专家的决策过程范例，如何将这种范例引入强化学习中，就是“模仿学习”（imitation learning）要解决的问题。

直接模仿学习

从零开始学习一个策略需要较长时间的探索，如果能够从人类经验中学习出一个较好的初始策略，那么可以极大的提高强化学习的效率。

直接模仿人类决策的状态-动作对的方法就是“直接模仿学习”。与蒙特卡洛强化学习类似，这种方法将人类专家提供的状态-动作序列作为采样，然后用来拟合一个Q(x,a)函数，这样就可以得到一个较好的策略。

逆强化学习

有些任务设定奖赏函数是比较困难的，从人类专家提供的决策序列中学习出奖赏函数，就是“逆强化学习”的目标。这一方法最早是吴恩达在2004年提出的。

此方法的思路是：假定奖赏函数是状态的线性函数，我们的目标就是学习出线性方程里面的权重w；这样，给定人类的决策序列就可以计算出其累积奖赏；学习的目标就是找到权重w和策略π，使得策略π的累积奖赏尽可能接近人类决策序列的累积奖赏。因此，这一方法可以同时学得奖赏函数和策略。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货