深度感知+深度学习,伯克利的机器人面对陌生目标也能成功取物
编者按:关于训练机器人抓手的研究并不少,大多都是从计算机视觉的角度出发,训练机器人“看得清”、“抓得准”。本文同样如此,不过与以往观察彩色图片不同,伯克利的研究者们借助“深度图像”这个“利器”,提出了一种更加高效的方法,能让机器人成功抓起此前并未见过的物体。
左:3D立方体。右:对应深度图像,距相机越近颜色越深。
早在AlexNet诞生的两年前,微软就为X-Box推出了Kinect。随着深度学习加速了超参数函数的性能,这种低成本的深度感知器层出不穷,也使得深度学习在图像分类、语音识别和语言翻译中取得了惊人的效果。如今,深度学习在端到端的电子游戏、机器人操控等问题中也表现出大有前景的势头。
上图展示了Dex-Net的数据集生成过程。首先,我们从多个来源中得到大量目标物的网格模型,并进行强化。每个模型都会被机械手抓起来进行采样。有了网格模型和被抓起后的图像,我们计算出它的鲁棒性,并生成模拟深度图像。通过计算摆放位置、摩擦力、质量、外力(例如重力)和蒙特卡罗积分法,计算出抓取成功地概率,从而对鲁棒性进行估计。上图右边,我们展示了正采样(抓取成功)和负采样(抓取失败)的例子。
有了模拟数据集后,它们将用来训练一个抓取质量卷积神经网络,来预测机器人抓取成功的概率。结构如图所示,一张图像经过处理后,调整了角度和抓取中心,同时对应的96×96的深度图像被当做输入,高度为z,用于预测抓取的成功概率。
上行:ABB Yumi机器人的摄像机捕捉到的真实深度图像;下行:Dex-Net的模拟深度图像,红色表示抓取的位置
上图是数据集的生成过程。和Dex-Net类似,我们对3D目标物体进行采样,然后通过模拟,将这些物体堆放在一个盒子中。生成对应的深度图像,以及用于训练的目标物体掩码和标准评估图像。
虽然没有在真实图像上训练,我们提出的SD Mask R-CNN的表现超过了点云分割和经过改进的Mask R-CNN。如上图所示,我们的模型可以准确进行分割。更重要的是,用于创造手动标签数据集的目标物体并不是从SD Mask R-CNN的训练分布中选择的,而是常见的家用物品,我们并没有它们的3D模型。所以,SD Mask R-CNN可以预测此前从未见过的物体掩码。
我们将整理床铺的任务看作是检测毯子的四个角,家庭机器人需要抓起毯子,并且把它的角和床对齐。我们最初的假设是深度图像含有足够的有关毯子的几何形状的信息。
领取专属 10元无门槛券
私享最新 技术干货