DeepMind 提出 GQN,神经网络也有空间想象力

人类理解一个视觉场景的过程远比看上去复杂,我们的大脑能够根据已有的先验知识进行推理,推理的结果所能涵盖的内容也要远超出视网膜接收到的光线模式的丰富程度。比如,即便是第一次走进某个房间,你也能马上就认出房间里都有哪些东西、它们的位置又都在哪里。如果你看到了一张桌子下面有三条腿,你很容易推断出来很有可能它还有一条一样形状、一样颜色的第四条腿,只不过现在不在可见范围里而已。即便你没法一眼看到房间里所有的东西,你也基本上能描绘出房间里的大致情况,或者想象出从另一个角度看这间房间能看到什么。

这种视觉和认知任务对于人类来说看似毫不费力,但它们对人工智能系统来说却是一大挑战。如今顶级的视觉识别系统都是由人类标注过的大规模图像数据集训练的。获取这种数据成本很高,也很费时,需要人工把每个场景里的每一个物体的每一个视角都用标签标识出来。所以最后,整个场景里往往只有一小部分的物体能被标识出来,这也就限制了在这样的数据上训练的人工智能系统的能力。随着研究员们开发能够运行在现实世界里的机器系统,我们也希望它们能够完全理解它们所处的环境 —— 比如最近的能够站稳的平面在哪里?沙发的材质是什么?这些阴影是哪个光源造成的?灯光开关有可能在哪里?

DeepMind 近期发表在 Science 杂志上的论文《Neural Scene Representation and Rendering》(神经网络场景表征与渲染)就研究了这个问题。论文中他们提出了生成式询问网络 GQN(Generative Query Network),这是一个可以让机器在场景中移动,根据移动过程中它们收集到的数据进行训练,从而学会理解它们自己的所处环境的网络框架。就像婴儿和动物一样,GQN 尝试理解自己观察到的所处的世界的样子,从而进行学习。在这个过程中,GQN 基本学到了场景的大致样子、学到了它的几何特点,而且不需要人类对场景中的任何物体进行标注。

GQN 模型由两部分组成:一个表征网络和一个生成网络。表征网络把智能体观察到的画面作为输入,然后生成一个表征向量,这个向量就描述了网络认识到的场景。生成网络接下来就会从一个之前未使用过的观察角度对场景进行预测(也可以说是「想象」)。

表征网络并不知道生成网络要预测的视角是什么样的,所以它需要找到尽可能高效的方式、尽可能准确地表征出场景的真实布局。它的做法是捕捉最重要的元素,比如物体的位置、颜色以及整个屋子的布局,在简明的分布式表征中记录下来。在训练过程中,生成器逐渐学到了环境中的典型的物体、特征、物体间关系以及一些基本规律。由于有了这组共享的「概念般」的表示方法,表征网络也就可以用一种高度压缩、抽象的方式描述场景,然后生成器会自动补足其它必要的细节。例如,表征网络可以简洁地用一组数字代表「蓝色方块」,同时生成器网络也知道给定一个视角以后要如何把这串数字再次转化为像素点。

DeepMind 在一组模拟的 3D 世界环境中进行了控制实验,环境里有随机位置、颜色、形状、纹理的多个物体,光源是随机的,观察到的图像中也有许多遮挡。在环境中训练过后,DeepMind 的研究人员们用 GQN 的表征网络为新的、从未见过的场景生成表征。通过实验,研究人员们表明了 GQN 有以下几个重要的特性:

  • GQN 的生成网络可以以惊人的精确性从新的视角为从未见过的场景生成「想象」的图像。对于给定的场景表征和新的视角,生成网络不需要任何透视、遮挡、光照条件的先验指定,就可以生成清晰的图像。这样一来,生成网络也就是一个从数据学到的不错的图像渲染器。
  • GQN 的 表征网络不需要任何物体级别的标签就可以学会计数、定位以及分类。即便网络生成的表征规模不大,GQN 对于提问视角的预测也很准确,与事实相差无几。这表明表征网络对场景的感知也很准确,比如准确描述了下面这个场景中组成积木的方块的具体状况。
  • GQN 能表征、测量以及减小不确定性。它自己对于场景的认知中可以包含一定的不确定性,尤其对于场景中的部分内容不可见的情况,它可以组合多个部分的视角,形成一个一致的整体理解。下图通过第一人称视角以及上帝视角展示了网络的这项能力。网络通过生成一系列不同的预测结果的方式展现出了不确定性,而随着智能体在迷宫中四处移动,不确定的范围逐渐减小。(图中灰色圆锥表示观察的位置,黄色圆锥表示提问的位置)
  • GQN 的表征为鲁棒、样本高效的强化学习带来了可能。把 GQN 的紧凑的表征作为输入,相比无模型的基准线智能体,目前顶级的强化学习智能体能够以更数据高效的方式进行学习,如下图所示。对于这些智能体来说,生成网络中编码的信息可以看做是存储了这些环境的「固有信息」、「通用特性」。
通过使用 GQN,DeepMind 的研究人员们观察到了数据效率显著更高的策略学习,相比一个标准的、把原始像素作为数据的方法,它与环境交互的数量只需要大概 1/4 就可以得到接近收敛级别的表现。

GQN 是基于多视角几何、生成式建模、无监督学习和预测学习方面的大量近期论文构建的,DeepMind 也在这篇报告中介绍了相关工作。GQN 介绍了一种新的方式从物理场景学习紧凑的、可靠的表征。最关键的是,所提的方法也不需要任何专门针对领域的工程设计或者耗时的内容标注,所以同一个模型可以用在多种不同的环境中。它还学到了一个强有力的神经网络渲染器,能够从新的视角为场景生成准确的图像。

不过 DeepMind 也表示,相比传统的计算机视觉技术,GQN 也遇到了诸多限制,目前也只尝试了在生成的场景中训练。不过,随着获得新的数据、硬件方面得到新的提升,他们也希望未来能够在更高分辨率的、真实的场景中研究 GQN 网络框架的应用。在后续研究中,研究如何把 GQN 应用到场景理解的更多层面上也是一个重要课题,比如通过对于一段时间和空间的提问,让模型学会一些物理原理和运动常识;GQN 在虚拟现实、增强现实中也有机会得到应用。

虽然这项方法距离实际应用还有很长的距离,但 DeepMind 相信这是向着全自动场景理解的目标的重要一步。

论文地址(Science版):

http://science.sciencemag.org/content/sci/360/6394/1204.full.pdf

论文地址(Open Access 版):

https://deepmind.com/documents/211/Neural_Scene_Representation_and_Rendering_preprint.pdf

via DeepMind Blog,

AI 科技评论编译

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-06-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

资源 | 普通程序员如何自学机器学习?这里有一份指南~

机器学习工程师自学指南! 本文将会介绍机器学习的方方面面,从简单的线性回归到最新的神经网络,你不仅仅能学会如何使用它们,并且还能从零进行构建。 以下内容以计算机...

3556
来自专栏数据科学与人工智能

【深度学习】深度学习未来十大趋势

神经网络框架变得越来越复杂而精密 在感知、语言翻译等等方面的大部分最先进的神经网络框架正在发展并且不在仅仅关于简单前馈式(feed forward)框架或者卷积...

3639
来自专栏IT派

全程中文:谷歌上线机器学习速成课程

IT派 - {技术青年圈} 持续关注互联网、区块链、人工智能领域 IT派日常小剧场 全球AI第一大厂Google推了新课程! ? Google今天上线了一...

2874
来自专栏PPV课数据科学社区

【推荐】开发者成功使用机器学习的十大诀窍

作者|Alexander Gray 编译|刘帝伟 转自|CSDN 在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应...

2393
来自专栏AI科技评论

业界| 英特尔中国研究院深度学习领域最新成果——“动态外科手术”算法

编者注:本文为英特尔中国研究院最新研究成果,主要介绍了一个名为“动态外科手术”算法,有效地解决了处理大型网络时重训练时间长,误剪枝率高的问题。利用该算法,我们可...

3103
来自专栏AI科技评论

学界 | MIT周博磊团队:时序关系网络帮助计算机填补视频帧之间的空白

AI 科技评论按:如果你向一个人仅仅展示一段视频中的几帧,他通常可以推测出视频里发生的是什么事件以及屏幕上会显示出什么。例如,如果我们在视频开始时的帧中看到了一...

1363
来自专栏AI科技评论

深度 | BAIR论文:通过“元学习”和“一次性学习”算法,让机器人快速掌握新技能

AI科技评论按:近日伯克利大学人工智能实验室(BAIR)Sergey Levine团队在Arxiv上发布了一篇名为《One-Shot Visual Imitat...

39710
来自专栏机器之心

自动「脑补」3D环境!DeepMind最新Science论文提出生成查询网络GQN

作者:S. M. Ali Eslami、Danilo Jimenez Rezende

970
来自专栏张俊红

时间序列数据(上)

总第92篇 01|时间序列定义: 时间序列是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。比如,不同时间段某产品的用...

3194
来自专栏AI科技评论

总结 | 清华大学韩旭:神经关系抽取模型

AI 科技评论按:关系抽取是自然语言处理中的重要任务,也是从文本中挖掘知识的基本途径之一。深度学习在关系抽取中的研究在近几年取得了广泛关注,其中基于远距离监督、...

1364

扫码关注云+社区

领取腾讯云代金券