计算机视觉也可以脑补了?

现在的计算机视觉系统大多基于深度神经网络,它们可以通过学习大量数据集从而得到将图像投影到普通的场景描述的功能,丸子酱已经解释了很多次,简单说就是见得多了习惯了。

然而和这种神经网络相比,我们的大脑显然更加智能,可以利用先前的知识来推理,并做出远远超出看到的物品的推论。例如,如果看到桌子的三条腿,那么可以推断出第四条腿的存在和其位置,基本与实际情况相同;即使看不到房间里的所有东西,你也可以画出它的布局、想象它的外观。婴儿在八九个月时就可以理解“形状恒常性”的存在,即使用布盖住他面前的玩具,他也可以脑补出布下面玩具的样子,而这,恰是深度神经网络不能识别的。

最近,通过模仿人大脑对环境的处理方法,DeepMind提出了一种新型计算机视觉框架:GQN (the Generative Query Network),这个框架实现了前面提到的功能,可以脑补出环境的另外部分,还可以将2D图片渲染至3D。

GQN模型由两部分组成:表示网络和世代网络。表示网络将察结果输入并对基础场景产生描述性质的的矢量表示,然后世代网络从以前未观察过的角度预测场景的表现。

表示网络通过以分布式表示捕获对象位置,颜色和房间布局等元素来实现准确描述场景的真实布局。该网络能够以高度压缩和抽象的方式描述场景,并将其留给世代网络,从而可以在必要时加入详细信息。

世代网络就像是一个近似的3D渲染器,它可以以非常精确的方式从新视角预测以前未观测到的场景。当给出场景和新的摄像机视点时,无需事先规定透视法,遮挡法或照明法,它就可以生成清晰的图像。

那么,GQN的可行性如何?

为了评估该框架的可行性,研究人员在模拟的3D环境中进行了一系列尝试。在第一组实验中,研究人员采用了包含各种对象的方形房间中的场景,墙面纹理、物体和灯的形状、位置和颜色都是随机的,以此有效地实现无限数量的总场景配置; 随后,研究人员使用有限数据集来训练和测试模型。训练结束后,GQN通过观察一个先前未学习的测试场景的图像来计算其场景表示,随后的结果显示,发生器在视点处的预测是高度准确的,大部分与地面事实并没有区别。

在这个实验中,GQN不可能通过随机的方式准确预测结果,它只能通过在场景感知和编码物体的数量、位置、颜色,还有墙壁的颜色以及光源的间接观察位置的方式来学习。与传统的神经网络学习不同,GQN学习如何从图像中进行推理,而不需要对场景内容进行任何明确的人为标注。实验过程中,当场景的内容重度遮挡的情况时,预测模型就会出现不确定的情况,这种情况反映在最终结果的的变化性上。

随后研究人员还采用了更复杂,程序化的迷宫环境来测试GQN的缩放属性。迷宫由通过走廊连接的多个房间组成,不同场景中迷宫的布局和墙壁的颜色都是随机的。在这个实验中,任何一次观察都会提供有关当前迷宫的少量信息。在进行多次识别观测后, GQN已经可以在新的摄像机视点做出对迷宫环境正确的预测;在进一步的训练中,模型甚至还可以高度准确地预测迷宫自上而下的视图。

在这个实验中,预测模型的不确定性随着观测数量的增大而降低,经过大约五次观察后,GQN的不确定性几乎完全消失。

现在的GQN还只能在实验室实现,主要是因为需要受控分析、真实数据集的可用性有限、不足以生成复杂的模型等原因,但它的确可以处理视觉的遮挡、场景的组合等问题。随着新的数据集可用化和建模能力的增强,GQN也会逐渐实现应用。有兴趣的同学可以戳http://science.sciencemag.org/content/sci/360/6394/1204.full.pdf?ijkey=kpkRRXA1ckHD6&keytype=ref&siteid=sci下载详细版本的PDF。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180619A1ZJTO00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券