前沿 | 想让照片里的美女“回头”？清华MIT谷歌用AI帮你实现了

灯塔大数据

发布于 2018-10-09 11:00:15

5510

发布于 2018-10-09 11:00:15

文章被收录于专栏：灯塔大数据

前言

“麻烦帮我把照片上这个美女转过来，脸朝前。”

设计师们总是接到这种神奇的需求，但是受限于素材和工具的“想象力”，设计师无法凭空推理出背影女子的正脸是美女还是恐龙，这种需求根本无法达成。不过，AI似乎把这个问题解决了。不过转过来的不是美女，而是香车。

本文经AI新媒体量子位（公众号 ID: QbitAI）授权转载，转载请联系出处

文章编辑：小雨

“麻烦帮我把照片上这个美女转过来，脸朝前。”

设计师们总是接到这种神奇的需求，但是受限于素材和工具的“想象力”，设计师无法凭空推理出背影女子的正脸是美女还是恐龙，这种需求根本无法达成。

不过，AI似乎把这个问题解决了。不过转过来的不是美女，而是香车。

我们看到图上汽车的背影，几辆车在道路的右侧向前行驶。清华、MIT和谷歌的研究人员，通过AI“脑补”3D图形，成功的让最后面这辆黑色的车“掉头”了。

先打个左转弯转过来。

然后掉头180°，开始“逆行”。

而且除此之外，这项研究成果还可以实现“看图拍电影”功能，一张静态图就可以演化出一系列不同帧的镜头。

比如雾霾天气路上的车辆：

准备超车，成功超越，消失在雾霾中。

或者给道路上的车“喷上”不同的颜色。

这样看，似乎这项技术不仅帮设计师解决了难题，甚至以后电影拍摄也可以在GPU里进行了。

这项研究本身基于三类研究：

1.可解释的图像表示，比如Tejas D Kulkarni的DC-IGN；

2.深度生成模型，比如大家都知道的GAN；

3.深度图像处理，比如风格迁移。

不过这些研究主要还是围绕2D图像来进行的，我们介绍的这项新研究则在其中加入了3D感知。

语义、纹理、几何分层

主要的原理是将图像的语义、纹理、几何三个维度分层，分别经过一系列去渲染和渲染流程。

先让原图像经过语义去渲染器，生成语义地图；同时经过纹理去渲染器，生成纹理代码；然后还要经过几何去渲染器，生成3D属性。

3D属性经过几何渲染器后，与语义地图及纹理代码共同进行纹理渲染，最终实现图像分层，将图像分解为背景和多个前景对象。

3D几何推理：脑补3D

上图是几何解释模块。该模块获取整个图像，使用来自对象提议的适当公式推断3D属性，并且可以生成可解释的表示以用于理解和操纵。这里首先使用MaskRCNN对对象实例进行分割。对于每个对象，推断其3D网格模型和对象姿势。

之后，得出其3D属性，确保重新得出的3D投影一致。

语义&纹理推理

在语义和纹理分析的过程中，先要分析类似场景的2D信息。

使用两个单独的卷积网络来获得背景中道路、天空、树林等部分，以及前景中的轿车、货车等物体，以及的必要颜色和纹理描述代码。

传送门

3D-Aware Scene Manipulation via Inverse Graphics Shunyu Yao, Tzu Ming Harry Hsu, Jun-Yan Zhu, Jiajun Wu, Antonio Torralba, William T. Freeman, Joshua B. Tenenbaum https://arxiv.org/pdf/1808.09351.pdf

— 完 —

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-09-06，如有侵权请联系 cloudcommunity@tencent.com 删除

图像处理

http

本文分享自灯塔大数据微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

图像处理

http

登录后参与评论

0 条评论

热度

前沿 | 想让照片里的美女“回头”？清华MIT谷歌用AI帮你实现了

前沿 | 想让照片里的美女“回头”？清华MIT谷歌用AI帮你实现了

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐