DeepMind 最新Science论文:生成查询网络GQN

DeepMind 刚刚在Science上发表一篇《Neural scene representation and rendering》论文,提出一种像人类一样具备“脑补”世界能力的AI:GQN(Generative Query Network)。

Amusi 将对论文中部分重要的内容进行介绍,如下所述:

场景表征(Scene representation)- 即将视觉传感数据转换为简洁描述的过程 - 是智能行为的基本要求。最近的工作表明,当为神经网络提供大量带标记的数据集时,它在这项任务中表现突出。 但是,消除对人工标签的依赖仍然是一个重要的公开问题。为此,我们介绍了生成查询网络(Generative Query Network,GQN),在这个框架中,机器学习将学习如何仅使用自己的传感器来表征场景。GQN将从不同视角拍摄的场景图像作为输入,用来构建内部表示,并使用此表示预测以前未观察到的视角下的场景外观。GQN演示了在没有人类标签或领域知识的表示学习,为自动学习以及了解周围世界的机器铺平了道路。

GQN 模型由两部分构成:一个表征网络(representation network)以及一个生成网络(generation network)。表征网络将智能体的观察作为输入,并生成一个描述潜在场景的表征(向量)。然后生成网络从之前未观察过的视角来预测(想象)该场景。

我们在实验中表明,GQN 具有几个重要的特性:

GQN 的生成网络可以从新的视角非常精确地「想象」以前未见过视角下的场景。当给定场景表征和新视角时,它会生成清晰的图像,而不需要预先规定角度、遮挡或照明的规律。因此,生成网络是从数据中学习的近似渲染器(renderer):

GQN 的表征网络可以学习计数、定位和分类目标,并且不需要任何目标级的标注。即使它的表征可能是很小的,GQN 在查询视角的预测也能达到很高的准确率,几乎和真实场景无法分辨。这意味着该表征网络可以准确地感知,例如识别积木块的精确配置。

DeepMind的上述工作展示了机器学习物理场景的基础表示的强大方法,以及从图像整体提取这些表示的相关感知系统,为完全无监督的场景理解,想象力,计划和行为铺平了道路。

全面的场景理解不仅涉及场景3D结构的表征。未来,重要的是要考虑场景理解的更广泛的方面 - 例如,通过在时空上查询动态和交互式场景的建模,以及虚拟和增强现实中的应用以及探索同时场景表示和本地化的观察,这涉及到计算机视觉中的同时定位和映射(simultaneous localization and mapping ,SLAM)的概念。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180617B09SHE00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券