学界 | 斯坦福大学&DeepMind联合提出机器人控制新方法,RL+IL端到端地学习视觉运动策略

选自arXiv

作者:朱玉可等

机器之心编译

参与:路雪、思源

近日,来自斯坦福大学&DeepMind 的研究者提出一种学习机器人深度视觉运动策略的新方法,它结合强化学习和模仿学习来实现高效的强化学习智能体,该方法可解决大量视觉运动任务。实验证明该智能体性能显著优于仅使用强化学习或模仿学习训练出的智能体。

近期深度强化学习在多个领域取得了很好的表现,如视频游戏 [29] 和围棋 [46]。对于机器人,RL 结合强大的函数逼近器(如神经网络)可提供设计复杂控制器的通用框架,而这种控制器很难靠人力搭建。基于强化学习的方法在机器人控制领域历史很久,但通常与低维动作表示结合使用 [4, 20]。近年来,使用 model-based 和 model-free 技术的深度强化学习在机器人控制方面取得了大量成功案例,包括模拟和在硬件上运行两方面。然而,使用 model-free 技术端到端地学习视觉运动控制器来执行长跨度、多阶段控制任务仍然存在很大难度。

开发 RL 机器人智能体需要克服多项挑战。机器人策略必须将从带噪传感器中得到的多模态、部分观测数据改变为具备一定自由度的协作活动。同时,现实任务通常具备富接触动态,并且随着多个维度发生变化(视觉外观、位置、形状等),给泛化带来了很大挑战。

本论文中,研究者提出一种 model-free 的深度 RL 方法,直接从像素输入入手解决大量机器人控制任务。本论文关键洞察有:1)利用少量人类演示数据减少在连续域执行探索(exploration)的难度;2)在训练过程中使用多种新技术(这些技术利用(exploit)了私有和任务特定的信息),以加速和稳定视觉运动策略在多阶段任务中的学习;3)通过增加训练条件的多样性来改善泛化性能。因此,这些策略在系统动态、目标外观、任务长度等发生显著变化的情况下仍然运行良好。

此外,研究者还展示了该方法在两项任务上的初步结果,仿真训练出的策略达到了向真实机器人的 zero-shot 迁移。

为了解决这些挑战,本论文研究者提出的方法将模仿学习和强化学习结合起来,构建一个统一训练框架。该方法以两种方式利用演示数据:使用混合奖励,基于生成对抗模仿学习将任务奖励与模仿奖励结合起来;使用演示轨迹构建状态的课程(curriculum),以在训练中初始化 episode。因此,该方法解决了全部六个任务,这些任务单凭强化学习或模仿学习都无法解决。

图 1. 研究者提出的机器人学习流程。研究者使用 3D 运动控制器收集某项任务的人类演示。本论文提出的强化学习和模仿学习模型利用这些演示促使模拟物理引擎的学习。然后执行 sim2real 迁移,将习得的视觉运动策略迁移至真正的机器人。

3. 模型

本研究旨在为机器人控制任务学习深度视觉运动策略。该策略使用 RGB 摄像头观测结果和本体特征(proprioceptive feature)向量描述关节位置和角速度。这两种感官模态在真实机器人上同样可用,因此研究者进行仿真训练,并将习得的策略在不修改的情况下迁移至机器人。图 2 是模型概览。深度视觉运动策略使用卷积神经网络编码观测像素,使用多层感知机编码本体特征。这两种模块中的特征被级联并传输至循环 LSTM 层,然后输出关节速度(控制)。整个网络以端到端的方式进行训练。研究者首先简要介绍了生成对抗模仿学习(GAIL)和近端策略优化(PPO)的基础知识。该模型基于这两种方法扩展而来,提升视觉运动技能。

图 2. 模型概览。模型核心是深度视觉运动策略,其采用摄像头观测结果和本体特征作为输入,并输出下一个关节速度。

4. 实验

本节展示了该方法可向视觉运动策略学习提供灵活的框架。研究者在六个控制任务中对该方法的性能进行了评估(详见图 3)。视频包含了定性结果。

图 3. 实验中六项控制任务的可视化。左边三列展示了六项任务在仿真环境中的 RGB 图像。这些图像对应输入视觉运动策略的实际像素观测。右侧一列展示了真实机器人执行两项色块任务的表现。

研究者将 episode 平均返回值表示为训练迭代次数的函数,如图 4 所示。完整模型在六项任务中达到了最高的返回值。

图 4. 论文提出的强化与模仿学习模型和基线学习效率的对比。该图展示的是 5 次不同随机种子运行的平均值。所有策略使用同样的网络架构和超参数(λ 除外)。

在图 5a 中,研究者用多种配置训练智能体,从单个修改到修改整个模型。研究者发现这些缺失可分为两类:学习堆叠的智能体(平均返回值大于 400)和仅学会提升的智能体(平均返回值在 200 和 300 之间)。结果表明从状态中学习价值函数的混合 RL/IL 奖励和以目标为中心的鉴别器特征在学习优良策略的过程中发挥了重要作用。

图 5b 展示了该模型在 λ 值在 0.3 到 0.7 之间的运行效果,λ 值的大幅变化提供了 RL 和 GAIL 奖励的平衡混合。

图 5. 堆叠任务中的模型分析。左图展示了从完整模型中移除每个单独组件对性能的影响。右图展示了模型对超参数 λ 的敏感度,λ 调节强化学习和模仿学习的贡献。

论文:Reinforcement and Imitation Learning for Diverse Visuomotor Skills

论文地址:https://arxiv.org/pdf/1802.09564.pdf

摘要:我们提出了一种 model-free 的深度强化学习方法,该方法利用少量人类演示数据帮助实现强化学习智能体。我们将该方法应用于机器人控制任务中,并训练端到端的视觉运动策略,使 RGB 摄像头输入可直接映射至关节速度。我们展示了该方法可解决大量视觉运动任务,而工程实现一个脚本控制器非常耗时费力。我们的实验表明强化学习和模仿学习智能体性能显著优于仅使用强化学习或模仿学习训练出的智能体。我们还介绍了这些策略,它们在视觉和动态条件变动较大的情况下进行训练,在 sim2real 迁移中取得了初步成功。本研究相关视频介绍:https://www.youtube.com/watch?v=EDl8SQUNjj0&feature=youtu.be。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-03-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

人工智能与机器学习有哪些不同

每天读一篇一线开发者原创好文 来自:51CTO.COM,作者:RickyHo,刘妮娜译 链接:http://network.51cto.com/art/2017...

3030
来自专栏ATYUN订阅号

新的AI工具可帮助设计人员扩展虚拟纹理,保持高度逼真

深圳大学和华中科技大学研究人员创造了一种新的AI工具,可以帮助设计人员为视频游戏,虚拟现实和动画制作更逼真的虚拟纹理。

1444
来自专栏企鹅号快讯

从吴恩达深度学习课程中学到的21个心得

编译:新知之路、小饭盆、钱天培 今年8月,吴恩达的深度学习课程正式上线,并即刻吸引了众多深度学习粉丝的“顶礼膜拜”。一如吴恩达此前在Coursera上的机器学习...

2229
来自专栏程序你好

机器学习 vs. 深度学习

在这篇文章中,我们将研究深度学习和机器学习的对比。我们也将分别学习它们。我们还将讨论他们在不同问题上的分歧。在进行深度学习和机器学习比较的同时,我们也会研究它们...

1152
来自专栏专知

【ACMMM17获奖比赛论文报告】让机器告诉你谁是下一个明星?- Social Media Prediction分享(附下载)

导读 哪部电影将会爆红?谁即将获得格莱美大奖?明天哪些股票会涨?人们对未来有着许许多多的预测,这些预测不仅仅是为了娱乐,还能为那些预测正确的人带来真正的价值。因...

3465
来自专栏AI科技评论

干货 | AAAI 2018 论文预讲:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

AI科技评论按:随着强化学习在机器人和游戏 AI 等领域的成功,该方法也引起了越来越多的关注。在近期 GAIR 大讲堂上,来自清华大学计算机系的博士生冯珺,为大...

6427
来自专栏机器之心

学界 | 为数据集自动生成神经网络:普林斯顿大学提出NeST

3285
来自专栏机器之心

学习世界模型,通向AI的下一步:Yann LeCun在IJCAI 2018上的演讲

Yann LeCun 开场介绍说,当前几乎所有的机器学习从业者在实践中使用的都是监督式学习:向机器展示大量的样本,然后告诉机器正确的答案与内部参数,然后就能做图...

1282
来自专栏鸿的学习笔记

机器学习应该知道的事(下)

新的一周又开始了,作为引子的review,还是有点长的,大家可以耐心的读读,绝对会让你有种豁然开朗的感觉。下周的重点是统计语言模型,别想的那么复杂,实际上就是贝...

822
来自专栏新智元

【干货】Jeff Dean Spark 2016 峰会演讲

【新智元导读】上周举行的Spark Summit 2016大会上,谷歌大脑的负责Jeff Dean就深度学习发表演讲,介绍了谷歌对深度学习的使用情况,从技术上解...

3805

扫码关注云+社区

领取腾讯云代金券