深度感知＋深度学习，伯克利的机器人面对陌生目标也能成功取物

文章来源：企鹅号 - 子茹笑薇

深度感知+深度学习，伯克利的机器人面对陌生目标也能成功取物

编者按：关于训练机器人抓手的研究并不少，大多都是从计算机视觉的角度出发，训练机器人“看得清”、“抓得准”。本文同样如此，不过与以往观察彩色图片不同，伯克利的研究者们借助“深度图像”这个“利器”，提出了一种更加高效的方法，能让机器人成功抓起此前并未见过的物体。

左：3D立方体。右：对应深度图像，距相机越近颜色越深。

早在AlexNet诞生的两年前，微软就为X-Box推出了Kinect。随着深度学习加速了超参数函数的性能，这种低成本的深度感知器层出不穷，也使得深度学习在图像分类、语音识别和语言翻译中取得了惊人的效果。如今，深度学习在端到端的电子游戏、机器人操控等问题中也表现出大有前景的势头。

上图展示了Dex-Net的数据集生成过程。首先，我们从多个来源中得到大量目标物的网格模型，并进行强化。每个模型都会被机械手抓起来进行采样。有了网格模型和被抓起后的图像，我们计算出它的鲁棒性，并生成模拟深度图像。通过计算摆放位置、摩擦力、质量、外力（例如重力）和蒙特卡罗积分法，计算出抓取成功地概率，从而对鲁棒性进行估计。上图右边，我们展示了正采样（抓取成功）和负采样（抓取失败）的例子。

有了模拟数据集后，它们将用来训练一个抓取质量卷积神经网络，来预测机器人抓取成功的概率。结构如图所示，一张图像经过处理后，调整了角度和抓取中心，同时对应的96×96的深度图像被当做输入，高度为z，用于预测抓取的成功概率。

上行：ABB Yumi机器人的摄像机捕捉到的真实深度图像；下行：Dex-Net的模拟深度图像，红色表示抓取的位置

上图是数据集的生成过程。和Dex-Net类似，我们对3D目标物体进行采样，然后通过模拟，将这些物体堆放在一个盒子中。生成对应的深度图像，以及用于训练的目标物体掩码和标准评估图像。

虽然没有在真实图像上训练，我们提出的SD Mask R-CNN的表现超过了点云分割和经过改进的Mask R-CNN。如上图所示，我们的模型可以准确进行分割。更重要的是，用于创造手动标签数据集的目标物体并不是从SD Mask R-CNN的训练分布中选择的，而是常见的家用物品，我们并没有它们的3D模型。所以，SD Mask R-CNN可以预测此前从未见过的物体掩码。

我们将整理床铺的任务看作是检测毯子的四个角，家庭机器人需要抓起毯子，并且把它的角和床对齐。我们最初的假设是深度图像含有足够的有关毯子的几何形状的信息。

发表于: 2018-10-262018-10-26 08:20:58
原文链接：https://kuaibao.qq.com/s/20181026A0CIYF00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

深度感知＋深度学习，伯克利的机器人面对陌生目标也能成功取物

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐