图灵时报·仿真机器人农场

文章来源：企鹅号 - 心有麟熙

欢迎来到《The Turing Times 图灵时报》第六期！

本周有幸请到心有麟熙的学长、斯坦福人工智能实验室的Kuan Fang博士，为大家介绍他的最新作品：Multi-Task Domain Adaptation for Deep Learning ofInstance Grasping from Simulation（仿真机器人农场的多任务域适应）。

为了将深度学习和强化学习应用在机器人领域中，近期越来越多的研究工作让机器人自主收集数据来进行训练。人们希望通过机器人自监督学习，来代替费时费力的机器人编程。

一个典型的例子是谷歌于2017年发表的机器人农场（Google Arm Farm）项目。在这个耗时一年多的项目中，谷歌将十余只机械臂摆放在房间里，让它们不分昼夜地尝试从一个托盘里面抓取物品。通过机械臂上方的摄像头，可以判断出是否有物体从托盘中被抓走，以此来自动对每一次的抓取尝试进行数据标注。在两个月的时间里，这些机器人自主收集了800,000次抓取的标注数据。用这些数据训练的深度神经网络模型可以控制机械臂达到80%的抓取成功率。

文章网址：

http://ai.stanford.edu/~kuanfang/pdf/fang2018icra.pdf

Demo 网址：

http://ai.stanford.edu/~kuanfang/pdf/fang2018icra.pdf

图：谷歌机器人农场

通过这样的自动数据收集似乎可以攻克所有的机器人难题——只要你有足够的机器人和足够的时间。然而，并不是所有的企业和实验室都像谷歌一样有这样的财力物力。同时，我们希望机器人学习的任务有千千万万，即使谷歌自己也不可能为了每一个任务都重新花费数月的时间收集数据。

一个替代方案是使用机器人的仿真模型来进行数据收集。然而仿真世界中的物理和图像同真实世界存在现实落差（reality gap），用仿真数据训练的模型放在现实世界中效果并不会好。一般，需要人们同时收集一定量的现实数据，来配合仿真数据进行域适应（domain adaptation），把从仿真数据中学到的知识迁移到现实。

图：仿真 v.s. 现实

在这篇工作中，我们希望在一个任务只有仿真数据的情况下进行训练，而通过相似任务的现实数据和仿真数据来进行仿真到现实的迁移。我们结合多任务学习（multi-task learning）和域适应（damain adaptation）提出多任务域适应（multi-task domainadaptation）来学习个体抓取（instance grasping）。

图：现实与仿真中的无差别抓取与个体抓取

在机器人抓取问题中，我们可以根据抓取的目标不同，定义无差别抓取（indiscriminate grasping）和个体抓取（instance grasping）。

无差别抓取：目标是从场景中抓取任意一个物品，模型输入是一张场景图片和随机采样的机械臂的控制信号，输出是预测的抓取成功概率，只要任意物品被抓离桌面托盘即算作成功。

个体抓取：需要用户先在场景图片上指定一个机器人要抓的物品个体，模型输入额外包含了一个二值的目标掩码（target mask），只有当机器人抓到被目标掩码指定的物品时才算作成功，没有抓到或者抓错物品都算作失败。这两个任务的输入不同，任务目标也有差别。

之前包括谷歌机器人农场的许多工作都关注于无差别抓取。因为个体抓取的任务更难，收集数据的效率更低，在现实世界中自动跟踪和标注抓到的物体是否为指定物体也非常困难。相比于已有的大量无差别抓取的数据，我们很难在现实中获得大量的个体抓取的标注数据。然而，在仿真世界中，我们很容易得到每一个物体的坐标和属性，因此很容易自动收集和标注个体抓取的数据。

图：多任务域适应

我们的多任务域适应训练模型由三个抓取预测网络(grasp predictiontower)和一个域分类器(domain classifier)组成。

三个抓取预测网络分别在三个不同的训练数据上进行学习，预测相应的抓取成功率：仿真个体抓取数据、仿真无差别抓取数据、现实无差别抓取数据。三个网络共享所有参数。由于目标掩码是个体抓取所特有的输入，为了保证个体抓取和无差别抓取有相同的网络结果，我们为无差别抓取的预测网络输入一个所有元素值为1的常数掩码。

我们使用域分类器来进行仿真到现实的知识迁移，其中的作用原理有些类似于对抗学习。对于仿真无差别抓取预测网络和现实无差别抓取预测网络分别提取中间层的特征，训练域分类器判断该特征来自仿真还是现实。

另一方面，我们在训练神经网络预测抓取成功概率的同时，增加一个对抗误差函数（adversarial loss）希望降低域分类器的正确率，让中间层的特征在域分类器面前“以假乱真”。这样，我们通过域分类器来约束抓取预测网络的参数，使得训练后的网络可以直接将知识迁移到现实。

在我们的实验中用到了图片个体分割来获得目标掩码。为此我们训练了一个Mask-RCNN模型。如果为了我们抓取任务中的物品标注图片分割数据将费时费力。所以我们Mask-RCNN的训练数据同样来自于仿真。我们用3D扫描仪扫描了所有要抓取的物品集，将扫描的3D模型渲染到随机的现实场景中，并且计算出相应的掩码，生成了大量的训练数据。训练出的Mask-RCNN可以在这些物品上预测出精确的掩码。

图：3D扫描物品与现实场景合成出的训练数据

图：仿真抓取物品

图：现实抓取物品

图：现实中的个体抓取性能

图：失败案例分析

在我们的模型训练中，用到了现实中的10万次无差别抓取数据，和仿真中各100万次的个体和无差别抓取数据。训练后的模型在现实中达到了60.8%的个体抓取成功率。28.8%的情况下机械臂抓了错误的物品。10.4%的情况下机械臂没有抓到任何物品。

多任务学习和仿真到现实的迁移学习都是机器人学习领域的重要问题。在这篇工作中，我们沿着两者结合的方向进行了初步的探索。然而更多后续问题还有待解决。我们的多任务域适应需要所选的任务具备一定的相似性。

我们证明了在不同的抓取任务上这一模型得以应用，当两个任务是抓取和锤击的时候，是否还可以有效进行知识迁移呢？个体抓取也是一个远远没有解决的问题。我们用掩码来指定目标物体，是否可以其它方式？许多有趣的问题可以由此展开。

END

感谢大家支持心有麟熙。还没有关注心有麟熙公众号的同学们请加DrJimFan或者扫下图二维码。

发表于: 2018-05-212018-05-21 09:04:42
原文链接：https://kuaibao.qq.com/s/20180521G0AKBY00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

图灵时报·仿真机器人农场

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐