前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NVIDIA研究员如何进行机器人的抓取研究(附Deep Object Pose Estimation 代码)

NVIDIA研究员如何进行机器人的抓取研究(附Deep Object Pose Estimation 代码)

作者头像
GPUS Lady
发布2018-12-05 16:15:23
1.4K0
发布2018-12-05 16:15:23
举报
文章被收录于专栏:GPUS开发者GPUS开发者

英伟达的机器人研究人员开发了一种基于深度学习的新系统,该系统允许机器人在其环境中感知家居物体,以获取物体并与之互动。通过这种技术,机器人能够对已知的家用物体进行简单的拾取操作,比如把一个物体交给一个人,或者从一个人的手中抓住一个物体。

这项研究基于英伟达研究人员之前的研究成果,允许机器人通过标准的RGB摄像机精确推断周围物体的位置。了解场景中物体的3D位置和方向(通常被称为6自由度至关重要,因为它允许机器人操纵物体,即使这些物体每次不在同一个位置。

英伟达(NVIDIA)首席研究科学家斯坦•伯奇菲尔德(Stan Birchfield)表示:“我们希望机器人能够以安全和熟练的方式与环境互动。”他解释说:“通过我们的算法和一张图像,机器人可以推断出一个物体的三维姿态,从而抓住并操纵它。” 

该算法比目前的方法表现得更加健壮,其目的是解决计算机视觉和机器人技术上的脱节问题,也就是说,目前大多数机器人不具备处理环境干扰所需的感知能力。这项工作很重要,因为这是计算机视觉领域的第一次,一种只在合成数据(由计算机生成)上训练的算法,能够打败在真实图像上训练的最先进的网络,在标准基准的几个对象上进行物体姿态估计。合成数据比真实数据具有优势,因为它可以为深层神经网络生成几乎无限数量的标记训练数据。

伯奇菲尔德解释说:“如今销售的大多数工业机器人缺乏感知能力,它们对周围的世界没有真正的感知能力。”“我们正在为下一代机器人奠定基础,我们离合作机器人的工作又近了一步。” 

通过在DGX站上使用NVIDIA Tesla V100 gpu,结合cudnn加速PyTorch深度学习框架,研究人员训练了一个深度神经网络,使用由NVIDIA为虚幻引擎开发的定制插件生成的合成数据。这个插件可以让其他研究人员公开使用。“具体来说,我们使用非真实感领域随机(DR)数据和真实感数据的组合来利用两者的优势,”研究人员在论文中说。“这两种类型的数据相互补充,产生的结果比任何一种单独获得的结果都要好得多。”合成数据还有一个额外的优点,那就是它避免了对特定数据集分布的过度拟合,从而产生了一个对光照变化、相机变化和背景有很强鲁棒性的网络。

在NVIDIA TITAN X GPU上进行了推断。推理代码也可以公开使用(点击阅读原文可以访问源代码)。

“我们已经证明,一个只接受合成数据训练的网络,与接受真实数据训练的网络相比,能够获得最先进的性能,并且由此产生的姿态对于机器人操作来说具有足够的准确性。”这项研究将在瑞士苏黎世举行的机器人学习会议上发表。

英伟达的团队由研究人员乔纳森·特伦布莱(Jonathan Tremblay)、唐图(Thang To)、巴拉库玛·桑达林加姆(Balakumar Sundaralingam)、于翔(Yu Xiang)、迪特尔·福克斯(Dieter Fox)和斯坦·伯奇菲尔德(Stan Birchfield)组成。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档