前沿 | 想让照片里的美女“回头”?清华MIT谷歌用AI帮你实现了

前言

“麻烦帮我把照片上这个美女转过来,脸朝前。”

设计师们总是接到这种神奇的需求,但是受限于素材和工具的“想象力”,设计师无法凭空推理出背影女子的正脸是美女还是恐龙,这种需求根本无法达成。不过,AI似乎把这个问题解决了。不过转过来的不是美女,而是香车。

本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处

文章编辑:小雨

“麻烦帮我把照片上这个美女转过来,脸朝前。”

设计师们总是接到这种神奇的需求,但是受限于素材和工具的“想象力”,设计师无法凭空推理出背影女子的正脸是美女还是恐龙,这种需求根本无法达成。

不过,AI似乎把这个问题解决了。不过转过来的不是美女,而是香车。

我们看到图上汽车的背影,几辆车在道路的右侧向前行驶。清华、MIT和谷歌的研究人员,通过AI“脑补”3D图形,成功的让最后面这辆黑色的车“掉头”了。

先打个左转弯转过来。

然后掉头180°,开始“逆行”。

而且除此之外,这项研究成果还可以实现“看图拍电影”功能,一张静态图就可以演化出一系列不同帧的镜头。

比如雾霾天气路上的车辆:

准备超车,成功超越,消失在雾霾中。

或者给道路上的车“喷上”不同的颜色。

这样看,似乎这项技术不仅帮设计师解决了难题,甚至以后电影拍摄也可以在GPU里进行了。

这项研究本身基于三类研究:

1.可解释的图像表示,比如Tejas D Kulkarni的DC-IGN;

2.深度生成模型,比如大家都知道的GAN;

3.深度图像处理,比如风格迁移。

不过这些研究主要还是围绕2D图像来进行的,我们介绍的这项新研究则在其中加入了3D感知

语义、纹理、几何分层

主要的原理是将图像的语义、纹理、几何三个维度分层,分别经过一系列去渲染和渲染流程

先让原图像经过语义去渲染器,生成语义地图;同时经过纹理去渲染器,生成纹理代码;然后还要经过几何去渲染器,生成3D属性。

3D属性经过几何渲染器后,与语义地图及纹理代码共同进行纹理渲染,最终实现图像分层,将图像分解为背景和多个前景对象。

3D几何推理:脑补3D

上图是几何解释模块。 该模块获取整个图像,使用来自对象提议的适当公式推断3D属性,并且可以生成可解释的表示以用于理解和操纵。这里首先使用MaskRCNN对对象实例进行分割。 对于每个对象,推断其3D网格模型和对象姿势。

之后,得出其3D属性,确保重新得出的3D投影一致。

语义&纹理推理

在语义和纹理分析的过程中,先要分析类似场景的2D信息。

使用两个单独的卷积网络来获得背景中道路、天空、树林等部分,以及前景中的轿车、货车等物体,以及的必要颜色和纹理描述代码。

传送门

3D-Aware Scene Manipulation via Inverse Graphics Shunyu Yao, Tzu Ming Harry Hsu, Jun-Yan Zhu, Jiajun Wu, Antonio Torralba, William T. Freeman, Joshua B. Tenenbaum https://arxiv.org/pdf/1808.09351.pdf

本文分享自微信公众号 - 灯塔大数据(DTbigdata)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-09-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏计算机视觉life

【深度相机系列二】深度相机原理揭秘--飞行时间(TOF)

深度相机按照深度测量原理不同,一般分为:飞行时间法、结构光法、双目立体视觉法。本文就来说一说飞行时间法。 飞行时间是从Time of Flight直译过来...

706100
来自专栏大数据文摘

Uber优步打车:想你所想,知你所达

18850
来自专栏AI研习社

无需编程,仅用摄像头,Google 最新项目让你 3 分钟学会机器学习 | 雷锋网

得益于各种套件,今天的机器学习的门槛已经越来越低。但 Google 显然并不满足于此,其最新推出了 Teachable Machine 项目,让用户无需编程就可...

384100
来自专栏AI研习社

推荐三个 Udacity 无人驾驶纳米项目的感知项目

本文为 AI 研习社编译的技术博客,原标题 Perception Projects from the Self-Driving Car Nanodegree P...

34720
来自专栏量子位

变性、衰老、染发后长啥样?简易版StarGAN全知道 | 代码

昨天,网友taki0112公布了一个简易版StarGAN TensorFlow实现,不到一天时间就在Reddit论坛上热度暴增到700。

13120
来自专栏量子位

超火的漫画线稿上色AI出新版了!无监督训练,效果更美好 | 代码+Demo

夏乙 安妮 编译整理 量子位 出品 | 公众号 QbitAI 给喜欢的动漫形象建个了收藏夹,里面收集她的各种图片……懂,谁没几个喜欢的动漫萌妹呢。 一些手绘线稿...

40430
来自专栏量子位

Mask R-CNN源代码终于来了,还有它背后的物体检测平台

夏乙 编译整理 量子位 出品 | 公众号 QbitAI “等代码吧。” 从Mask R-CNN论文亮相至今的10个月里,关于它的讨论几乎都会以这句话收尾。 ?...

484100
来自专栏量子位

“深度学习已死,可微编程万岁!”LeCun老师为何又语出惊人?

夏乙 编译整理 量子位 出品 | 公众号 QbitAI ? Deep Learning est mort. Vive Differentiable Progra...

38350
来自专栏机器学习算法原理与实践

强化学习(一)模型基础

    从今天开始整理强化学习领域的知识,主要参考的资料是Sutton的强化学习书和UCL强化学习的课程。这个系列大概准备写10到20篇,希望写完后自己的强化学...

19630
来自专栏AI研习社

DeepMind AI 是如何识别音视频概念的? | 2分钟读论文

来源 / Two Minute Papers 翻译 / 林立宏 校对 / J叔 整理 / 雷锋字幕组 Look, Listen and Learn 熟悉机器学习...

34990

扫码关注云+社区

领取腾讯云代金券