深度感知+深度学习,伯克利的机器人面对陌生目标也能成功取物

深度感知+深度学习,伯克利的机器人面对陌生目标也能成功取物

编者按:关于训练机器人抓手的研究并不少,大多都是从计算机视觉的角度出发,训练机器人“看得清”、“抓得准”。本文同样如此,不过与以往观察彩色图片不同,伯克利的研究者们借助“深度图像”这个“利器”,提出了一种更加高效的方法,能让机器人成功抓起此前并未见过的物体。

左:3D立方体。右:对应深度图像,距相机越近颜色越深。

早在AlexNet诞生的两年前,微软就为X-Box推出了Kinect。随着深度学习加速了超参数函数的性能,这种低成本的深度感知器层出不穷,也使得深度学习在图像分类、语音识别和语言翻译中取得了惊人的效果。如今,深度学习在端到端的电子游戏、机器人操控等问题中也表现出大有前景的势头。

上图展示了Dex-Net的数据集生成过程。首先,我们从多个来源中得到大量目标物的网格模型,并进行强化。每个模型都会被机械手抓起来进行采样。有了网格模型和被抓起后的图像,我们计算出它的鲁棒性,并生成模拟深度图像。通过计算摆放位置、摩擦力、质量、外力(例如重力)和蒙特卡罗积分法,计算出抓取成功地概率,从而对鲁棒性进行估计。上图右边,我们展示了正采样(抓取成功)和负采样(抓取失败)的例子。

有了模拟数据集后,它们将用来训练一个抓取质量卷积神经网络,来预测机器人抓取成功的概率。结构如图所示,一张图像经过处理后,调整了角度和抓取中心,同时对应的96×96的深度图像被当做输入,高度为z,用于预测抓取的成功概率。

上行:ABB Yumi机器人的摄像机捕捉到的真实深度图像;下行:Dex-Net的模拟深度图像,红色表示抓取的位置

上图是数据集的生成过程。和Dex-Net类似,我们对3D目标物体进行采样,然后通过模拟,将这些物体堆放在一个盒子中。生成对应的深度图像,以及用于训练的目标物体掩码和标准评估图像。

虽然没有在真实图像上训练,我们提出的SD Mask R-CNN的表现超过了点云分割和经过改进的Mask R-CNN。如上图所示,我们的模型可以准确进行分割。更重要的是,用于创造手动标签数据集的目标物体并不是从SD Mask R-CNN的训练分布中选择的,而是常见的家用物品,我们并没有它们的3D模型。所以,SD Mask R-CNN可以预测此前从未见过的物体掩码。

我们将整理床铺的任务看作是检测毯子的四个角,家庭机器人需要抓起毯子,并且把它的角和床对齐。我们最初的假设是深度图像含有足够的有关毯子的几何形状的信息。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181026A0CIYF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券