首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepMind新技能:GQN模型使2D照片变3D场景 无需大量数据集

近日,DeepMind在Science上发表论文,提出了Generative Query Network(简称为GQN)。DeepMind创始人Hassabis在推文中表示:这个模型能从一个场景的少量2D照片中重新生成3D表示,并且能从新的摄像头视角将它渲染出来。

当我们理解一个视觉场景时,大脑会利用经验进行推理。比如进入一个房间,只能看到一张桌子的三条腿时,我们会推断,第四条桌子腿隐藏在我们的视线之外,而我们很容易能勾画出这张桌子的全部场景。

类似的场景视觉和认知任务对人类来说很简单,但机器理解起来就十分困难。目前的计算机视觉系统,大都是监督学习的成果,系统需要用大规模标记了数据的图像集来训练,这会限制数据集包含的场景范围,更别说脑补视线范围之外的场景。

与传统的计算机视觉系统不同,GQN与婴儿和动物非常相似,能通过理解对周围环境的观察来学习。

GQN由两部分组成,一个是表示网络,一个是生成网络。表示网络负责输入智能体观察到的图像,并生成描述潜在场景的表示。生成网络负责从表示网络没有观察到的角度中,预测背后潜在的场景。

DeepMind在对GQN的实验中发现,只要给出一个场景表示、新的摄像机试点,GQN就能生成清晰的图像,即便内容不是完全可见,GQN也能将多个局部视图加以组合,形成整体。

DeepMind这套GQN模型的意义在于,它可以不依赖带标记的数据,能够推广到各种不同的场景中。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180616G0COPL00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券