专栏首页量子位谷歌新论文:教机器人预测3D结构、然后抓取物体

谷歌新论文:教机器人预测3D结构、然后抓取物体

王小新 编译自 GitHub 量子位 出品 | 公众号 QbitAI

最近,Google的一组科研人员完成了一篇新论文:基于几何感知表征的抓取交互学习(Learning Grasping Interaction with Geometry-aware Representations),论文提出了一种几何感知编码器-解码器网络,利用几何感知表征来学习实现抓取交互。

这篇论文的作者包括:密歇根大学的前谷歌大脑实习生Xinchen Yan,谷歌大脑的Jasmine Hsu、James Davidson,Google X的Mohi Khansari、Yunfei Bai、以及谷歌、谷歌研究院的Arkanath Pathak、Abhinav Gupta。

具体效果如何呢?作者还提供了一个关于实验结果的简短演示视频:

视频内容

以下,是论文主要内容的介绍:

论文摘要

学习与环境中的物体进行交互是一个涉及到感知、运动规划和控制的根本性AI问题。然而,由于存在高维状态空间、很难创建大规模数据集和很难关注到物体外观的多类变化信息(如几何结构、材质、纹理和照射度等),因此学习此类交互表征十分具有挑战性。

我们论证了物体3D几何结构是抓取交互的研究核心,并提出一种称为几何感知学习智能体(geometry-aware learning agent)的新概念。

本文的核心思想是通过3D几何学预测来约束和规范交互学习。

具体地说,本文把几何感知智能体的学习过程分为两个步骤:首先,智能体通过3D形态生成模型,从2D感知输入中学习构建当前场景的几何感知表征;然后,它通过内置的几何感知表征来学习预测抓取结果。这种几何感知表征方法利用一种新颖的无学习(learning-free)深度投影层,在几何学与交互的关联研究中起到了关键作用。

本文的主要贡献有三方面:(1)我们利用虚拟现实(VR)演示构建了一个具有丰富感知和交互标注的抓取数据集;(2)我们证明了,与基准模型相比,学习几何感知表征能得到一个鲁棒性更好的抓取结果预测效果;(3)我们也展示了这种几何感知表征学习方法在抓取规划中的优势。

实现方法

两阶段学习框架示意图

我们提出了一种两阶段的学习框架,分别执行3D形态预测和利用几何感知表征进行抓取结果预测。给定任何场景下的2D感知输入,都能生成相应的3D物体形状(如体积表征),这是本文所提出的几何感知智能体中一个非常重要的特性。更具体地说,

在本文构想中,几何感知表征可理解为:(1)一种在世界坐标系下以相机目标为中心的场景的占用网格表征方法,和(2)其对相机视角和距离具有不变性。

模型结构

几何感知编码器-解码器网络示意图

本文所构建的几何感知编码器-解码器网络包含两个部分,分别是3D形态生成网络(生成功能)和抓取结果预测网络(预测功能)。其中,形态生成网络包含一个2D卷积形态编码器和一个3D反卷积形态解码器,再接上一个全局投影层;结果预测网络包含一个2D卷积状态编码器和一个带有额外局部形态投影层的全连接结果预测器。

实验

下图从直观层面和内在信息流两个角度简单介绍了3D形态预测的流程图。

3D形态预测流程图

论文传送门:

https://arxiv.org/pdf/1708.07303.pdf

本文分享自微信公众号 - 量子位(QbitAI),作者:专注报道AI

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-09-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • PyTorch 0.2发布:更多NumPy特性,高阶梯度、分布式训练等

    李林 编译整理 量子位 报道 | 公众号 QbitAI Facebook的机器学习框架(之一)PyTorch今天发布了新版本:0.2.0。 这一版本引入了Num...

    量子位
  • 百度推出LinearDesign,全球首个mRNA疫苗不稳定性解决方案,仅需16分钟

    mRNA作为一种全新的疫苗类型,能够快速大规模生产, 因此成为科学家们攻克的主阵地之一。

    量子位
  • 澎思科技马原:AI安防竞争还未结束,落地进入后发优势时代 | MEET2020

    比如中国第一批人工智能专业毕业生,毕业于西安电子科技大学的马原和他创立的澎思科技。

    量子位
  • 笔记71 | Intent分享内容(文本,图片,视频)

    项勇
  • Android 最全 Intent 传递数据姿势

    点击上面蓝色字体关注“IT大飞说” 置顶公众号(**ID:ITBigFly**)第一时间收到推送

    IT大飞说
  • 滴滴打车借助腾讯云打下1.5亿用户"江山"

    最近滴滴打车的联合创始人兼CTO张博接受媒体采访,首次谈到腾讯云为滴滴提供云计算、大数据,在技术型人才层面给滴滴的帮助和改变。包括滴滴在几次补贴大战中,面对大流...

    BestSDK
  • 自学编程的六个技巧总结

    有一天,我的一个在学编程的朋友问我:“我想快速学习编程,你有什么好的推荐吗?我曾在上大学的时候自学过编程,这么多年过去了,我意识到我或许是在用最困难的方式去学习...

    企鹅号小编
  • Android后台发送邮件进行日志反馈

    最近在和解决用户反馈的问题,但是出现了不方便的事情.就是获取用户操作日志的问题.想来想去还是用比较隐晦的方法---发送邮件.(需要告知用户,不然会当成流氓的!)

    open
  • 函数防抖

    防抖: 事件出发后n秒之后再执行回调,如果在n秒内重复触发那么,只会重新开始计时计算。

    用户4344670
  • Elasticsearch 之聚合分析入门

    本文主要介绍 Elasticsearch 的聚合功能,介绍什么是 Bucket 和 Metric 聚合,以及如何实现嵌套的聚合。

    武培轩

扫码关注云+社区

领取腾讯云代金券