专栏首页机器之心视频 | NeurIPS 2019分享:清华大学孙富春组提出全新模仿学习理论

视频 | NeurIPS 2019分享:清华大学孙富春组提出全新模仿学习理论

机器之心发布

机器之心编辑部

在 NeurIPS 2019正式召开以前,机器之心精心策划了 NeurIPS 2019 专题,包括线上分享、论文解读、现场报道等内容。11月14日,第一期分享已经圆满结束。本文介绍的是「全新智能体观测模仿学习」,这是清华计算机系类脑计算与认知团队最新提出的一种学习理论,也是学界首次将生成式对抗方法推广到观测模仿学习中。

在上周四的第一期线上分享中,清华计算机系博士后黄文炳为大家详细解读了大会接收的这篇 Spotlight 论文《Imitation Learning from Observations by Minimizing Inverse Dynamics Disagreement》。

以下是本期视频回顾:

PPT下载:https://pan.baidu.com/s/1Zj59PAe4hYhDDh5zd4gWZg

引言

观测模仿学习(Imitation learning from observations)是示教学习(Learning from demonstrations,模仿学习)的前沿发展方向,目前的示教学习是在给出一定数量的专家(称为示教者)示教轨迹的前提下,通过监督学习、强化学习等机器学习方法训练智能体(称为学习者)控制策略,让智能体的行为尽可能与专家相似,进而使得智能体表现出专家行为的过程。

模仿学习主要分为两类,一类是行为克隆(Behavioral Clone),另一类是逆强化学习(Inverse Reinforcement Learning), 标准的行为克隆方法是一类通过监督学习方法实现模仿学习的途径,是模仿学习中最简单最直观的方式,这类方法可以理解成智能体接受专家提供的示教样本并转换成状态-动作对形式,采用分类器(离散控制策略)或回归器(连续控制策略)拟合专家策略的过程。然而这类方法中智能体不进行环境交互与探索,训练的策略往往存在累积误差,而且性能受限于专家样本。

因此有更多的研究人员关注到通过逆强化学习实现示教学习问题,通过示教样本学习奖惩函数(动作好坏的规则),进而利用强化学习方法让智能体在学到的奖惩函数下探索环境并利用探索样本学习控制策略,学习性能在大多场景下往往超过行为克隆方法。

在逆强化学习实习的模仿学习中,GAIL[1] 算法首次将对抗训练机制引入模仿学习中,本文在 GAIL 的方法基础上,进一步探讨当专家示教不完备情况下如何完成模仿学习,特别是在实际机器人学习场景中最常见的【专家样本中不包含动作信息】情况,我们称这类模仿学习为观测模仿学习。本文理论上发现了观测模仿学习与常规的模仿学习之间的鸿沟差异,证明了该鸿沟差异存在优化上界,并提出了一种模型无关的优化方法。

模仿学习,特别是观测模仿学习,高效地让机器人学会人所掌握的技能或处理任务的能力,是未来智能机器人得以广泛应用的保证。

  • 论文链接:https://arxiv.org/pdf/1910.04417.pdf
  • Website:https://sites.google.com/view/neurips19-iddm/home

方法

基于逆强化学习的模仿学习代表性工作 Generative Adversarial Imitation Learning (GAIL),将对抗训练过程引入智能体模仿学习中,其中判别器用于区分智能体探索样本(Fake Sample)与专家样本(Real Sample),进而利用判别器描述的奖惩函数探索环境并通过强化学习训练智能体策略。提供专家样本为:

,其优化目标可以表示为:

其中

分别表示智能体与专家的状态 (s)-动作 (a) 的占用率度量(State-Action Occupancy Measure),是刻画控制策略对应表现行为的数学统计量,对于平稳随机过程,该占用率度量为唯一确定的统计量,

为计算 Kullback-Leibler (KL) 散度(文章附录部分进一步推导了 Jensen-Shannon (JS) 散度下的占用率度量逼近过程)。在 GAIL 论文中证明了最小化专家与学习者的占用率度量的 Jensen-Shannon (JS) 散度,可以有效解决模仿专家策略问题。

进一步地,当专家示教不完备情况下,考虑专家示教中不包含动作信息,即专家样本为:

,观测模仿学习的一种直观地改进优化方法 GAIfO [2] 为:

该优化目标直接将状态-动作占用率度量替换为状态转移占用率度量,在后面的证明中会说明这样的优化目标仅能适用于特定的动力学系统的情形,在更多的动力学系统情况下这样的优化方法将会失效。

具体步骤

首先,对于专家与智能体具有相同动力学系统的情形,可以证明观测模仿学习与常规的模仿学习之间存在一定的关联(证明过程请查看文章附录):

定理1:如果智能体与专家之间共享相同的动力学系统模型,那么常规的模仿学习、朴素的观测模仿学习与逆动力学系统差异之间的关联可以表示成以下形式:

其中,

为专家与智能体的逆动力学系统概率分布的 KL 测度,这里称之为 Inverse dynamics disagreement(IDD), 描述二者间的逆动力学系统差异程度,根据贝叶斯公式

,可以知道智能体的逆动力学系统

是与控制策略

有关的,因此逆动力学系统的差异也一定程度上刻画了专家与智能体的控制策略的差异,进一步分析,当智能体动力学系统的单射变换时,可以证明:

推论1:当动力学模型为单射变换时,朴素的观测模仿学习等效于常规的模仿学习

然后,建立了观测模仿学习与常规模仿学习的关系后,可以看出对于模仿学习问题,除了优化朴素的观测模仿学习目标(公式(2))外,还需要进一步去优化 IDD 这一项,可以证明 IDD 的优化上界可以表示为:

定理2:令

分别代表智能体与专家的状态-动作占用率度量的信息熵,当

最小化的时候:

其中,最大化信息熵

可以转换成最大化策略熵

与互信息

之和,具体推导可以查看论文公式(8-9)。

最后综合上述,推导出观测模仿学习问题的优化目标为:

实验

在实验中,研究者先设计了一个 GridWorld 的导航任务,用于说明 IDD 在观测模仿学习中的存在性,如下图所示,网格中相邻位置之间的转移动作方式由 1 到 11 种变化,当只有 1 种动作转移方式的时候,也就是环境的动力学为单射变换的情况,GAIL,GAIfO 以及本研究的方法表现相当的性能,与推论 1 中的结论一致,随着相邻位置之间的转移动作方式逐渐增多时,GAIfO 的性能逐渐下降,但本项研究的方法仍能较好提升观测模仿学习效果。

图 1.(右图)三个网格实验图分别表示在导航任务中即使在相同的路线下(代表状态转移分布

一样),可能出现不同的动作方式

。(左图)三种方法在随着转移动作种类逐渐增多过程中,表现效果的变化趋势。注:GAIL 方法中是常规的模仿学习问题,示教样本中包含动作信息,属于 GAIfO 和本方法的理论上限。

另外,研究者在 Gym 下的 Mujoco 实验中 6 个任务中进一步验证了本研究方法的模仿效果,相比于其他观测模仿学习方法(关于其他观测模仿学习方法的具体介绍,可以查看论文的 Related Work 部分),本研究方法均取得了最好效果。更多消融实验与参数敏感性分析实验可以查看论文及论文附录。

表 1. 本研究方法与基准方法在标准的 Mujoco 实验环境下的 6 种 task 的定量表现结果,所有数值均为标准任务下的 reward 定义。其中 GAIfO-s*方法是将 GAIfO 方法中的状态转移占用率度量

替换为状态占用率度量

的朴素观测模仿学习方法。

图 2. 策略可视化运行结果图,左边为专家示教样本(通过强化学习训练得来),中间为朴素的观测模仿学习优化结果,右边是本研究方法的表现结果。

参考文献:

[1] Ho J, Ermon S. Generative adversarial imitation learning[C]//Advances in neural information processing systems. 2016: 4565-4573.

[2] Torabi F, Warnell G, Stone P. Generative adversarial imitation from observation[J]. arXiv preprint arXiv:1807.06158, 2018.

本文分享自微信公众号 - 机器之心(almosthuman2014),作者:Synced

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 李宏毅机器学习完整笔记发布,AI界「最热视频博主」中文课程笔记全开源

    李宏毅老师现任台湾大学电气工程助理教授,研究重点是机器学习,特别是深度学习领域。他有一系列公开的机器学习课程视频,在机器学习领域是很多人入门的教材,人气不输吴恩...

    机器之心
  • 图解机器学习:人人都能懂的算法原理

    机器学习这个主题已经很普遍了,每个人都在谈论它,但很少有人能够透彻地了解它。当前网络上的一些机器学习文章晦涩难懂,理论性太强,或者通篇云里雾里地介绍人工智能、数...

    机器之心
  • 2018 ACM博士论文奖公布:伯克利博士获奖,清华姚班马腾宇荣誉提名

    今日,ACM 公布最佳博士论文奖,来自 UC 伯克利的博士生 Chelsea Finn 凭借论文《Learning to Learn with Gradient...

    机器之心
  • Web前端面试宝典(最新)

    html语义化让页面的内容结构化,结构更清晰,便于对浏览器、搜索引擎解析;即使在没有样式CSS情况下也以一种文档格式显示,并且是容易阅读的;

    半指温柔乐
  • 专栏 | CVPR 2017论文解读:基于视频的无监督深度和车辆运动估计

    机器之心专栏 作者:单乐 本届 CVPR 2017大会上出现了很多值得关注的精彩论文,国内自动驾驶创业公司 Momenta 联合机器之心推出 CVPR 2017...

    机器之心
  • 小程序bindtap参数传递

    程序员不务正业
  • PHPUnit + Laravel单元测试常用技能

    用来提供参数和结果,使用 @dataProvider 标注来指定使用哪个数据供给器方法。例如检测app升级数据是否符合预期,addProviderAppUpda...

    砸漏
  • 2016.05.14Java实现博客系统之音轨特效

    Java实现博客系统之音轨特效-keke老师-20160514 链接:http://pan.baidu.com/s/1jIMwviu 密码:129k Ja...

    用户1667431
  • Java等IT开发视频资源分享(不断更新)

    前言: 该日志一直更新,资源都是免费分享获取精品资源需要分享好友加【Java帮帮】微信公众号,好资源大家共享,赶快分享到你的QQ空间让更多朋友都能获取免费的资源...

    Java帮帮
  • 机器学习资料分享(持续更新)

    2017.12.12 有一些链接已经失效,并且网盘一些文件被删了,我在上传一下。大家发现有什么失效的链接请在评论区告诉我下。谢谢 另外,我在新的一篇文章中会更加...

    云时之间

扫码关注云+社区

领取腾讯云代金券