【CVPR 2018】照片闭眼也无妨,Facebook黑科技完美补全大眼睛


新智元报道

来源:TechCrunch,arXiv

编辑:文强,克雷格

【新智元导读】如何将照片中闭着的眼睛“打开”,一直是计算机视觉和图形学中的难题。Facebook提出了一种Exemplar GANs(ExGANs)的方法,在条件GAN的基础上加入参考信息,能合成逼真且自然的眼睛,肉眼几乎无法分辨。

现在有很多方法可以美化照片,让你看起来更好看,简单的,比如消除红眼或者镜头眩光,复杂的,甚至可能让你看起来变了一个人。

但是,到目前为止,还没有一个很好的办法处理照相时眨眼的问题:当拍照的那一瞬间眼睛正好闭上了,那么……就只能重新拍一张。

不过,现在好了,Facebook的一项最新研究可以很好地解决这个问题,而且效果惊艳。

Facebook的新技术让你完美睁眼:第一列和第二列是ground truth(分别对应正常和闭眼的情况);第三列是目前商用软件中效果最好的Adobe Photoshop Elements的结果;第四列是Facebook这次新提出的技术ExGAN。来源:研究论文

深度学习让计算机“脑补”,风格转移合成逼真细节

Facebook在他们发表于CVPR 2018的论文“Eye In-Painting with Exemplar Generative Adversarial Networks”中描述了这项工作。

这里提到的“In-Painting”,也即图像补全,最初是一个传统图形学的问题,在一幅图像上挖一个洞,看如何利用其他的信息将这个洞补全,并且让人眼无法辨别。

这个问题对人类来说似乎很容易,只要稍微想象一下,大家很容易就能脑补出洞里应该有什么。但是,这个任务对于计算机而言却十分困难,因为这个问题没有唯一确定的解,如何利用其他的信息,如何判断补全的结果是否足够逼真,都是要考虑的问题。

近来,深度学习的发展,得益于神经网络对图像中高层特征(high-level feature)的提取能力,研究人员可以将大数据和high-level feature组合起来,使这个十分困难的问题得到了比较好的解决。

例如,2017年,来自伯克利和Adobe等机构的研究人员提出了一种混合优化方法(joint optimization),利用编码器 - 解码器CNN的结构化预测和神经补丁的力量,成功合成了实际的高频细节。

对于给定的一张带有孔洞(256×256)的图像(512×512),算法可以合成出更清晰连贯的孔洞内容(d)。上图展示了混合优化方法与用Context Encoders(b)、PatchMatch(c)这两种方法产生的结果的比较。

类似于风格转移(style transfer),他们的方法将编码器 - 解码器预测作为全局内容约束,并且将孔洞和已知区域之间的局部神经补丁相似性作为风格(style)约束。

补全眼睛,还是个大问题

但是,上述方法还是存在种种局限,其中之一就是对眼睛的补完。

这并不是说眼睛——“人类心灵的窗口”很难模拟。实际上,目前的深度网络已经能在语义上产生逼真的、令人信服的结果。

但是,大多数方法并不能保留照片中人物的“身份”(identity)。DNN可以学习“打开”一双闭合的眼睛,但是模型本身并不能保证新的眼睛对应于这个人的特定眼睛结构。

DNN只会插入一双与训练集中相似的脸相对应的眼睛。这时候,如果一个人有一些明显的特征,比如眼睛的形状比较特别,就不会在生成的部分中得到体现。

Facebook提出ExGAN,比cGAN更具表现力

Facebook作为全球最大的社交网络,每天乃至每一分钟都有大量用户将自己的照片上传,而其中就有很多是闭眼的照片。

坐拥可能是全球最大的闭眼照片数据集,Facebook的研究人员自然会想,能不能在这个基础上做些什么。

于是,有鉴于生成对抗网络(GAN)在生成逼真图像中的应用,Facebook的Brian Dolhansky和Cristian Canton Ferrer提出了一个Exemplar GANs (ExGANs)。

ExGAN是条件GAN(cGAN)的扩展,利用示例信息,生成高质量、个性化的图像补全。

与以前的条件GAN不同,在判别器网络里插入了额外的参考信息(参考图片或者感知代码),因此ExGAN有更强的表现力。

ExGANs的总体训练流程可以概括为:

  1. 从输入图像中标出眼睛;
  2. 以参考图像(reference image)或感知代码(perceptual code)为指导,对图像进行补全;
  3. 通过输入图像和补全图像之间的内容/重构损失,计算生成器参数的梯度;
  4. 用补全图像、另一个ground truth图像和参考图像或感知代码,计算鉴别器参数的梯度;
  5. 通过生成器反向传播鉴别器的误差。还有可选的一步,用感知损失对生成器的参数进行更新。其中,函数C(I)是身份函数。

ExGAN,让闭眼照片完美“开眼”

ExGAN从样例中,不仅了解了这个人的眼睛看的是什么,还了解了这个人的眼睛的结构、瞳孔的颜色,等等。最终补全的结果非常逼真而且自然。

在测试中,人们误把假眼睛睁开的照片当成真实的,或者有超过一半的时间他们不能确定哪个是哪个。看了上面的实例,除非我知道照片肯定是被篡改过的,不然我在信息流中滚动浏览时我可能根本就不会注意到。

在下图中,左边第一列是ground truth,第二列是其他方法,第三列和第四列都是ExGANs的结果。其中,第三列是使用了参考图像的结果,第四列是使用了感知代码的结果。(图片可以点击放大查看。)

在某些情况下,ExGANs仍然会失败,比如当一个人的眼睛被一缕头发遮住了一部分,或者有时不能正确地着色,就会产生一些奇怪的人工痕迹。但这些都是可以解决的问题。

研究者表示,Exemplar GANs是一个通用的框架,因此可以拓展到其他计算机视觉任务乃至其他领域的问题上。

在这次的研究中,基于参考图片和基于感知代码的两种方法是分开的,因为他们想展示这两种方法都是可行的。未来,他们会研究将这两种方法结合在一起,比如在生成器里使用参考图片,在判别器里使用感知代码,从而生成更加逼真可信的眼睛补全。

不论如何,我们的照片将变得更加自然和漂亮,而鉴别“换脸”或者假视频的任务,也将更具挑战。

相关论文

Eye In-Painting with Exemplar Generative Adversarial Networks

https://research.fb.com/publications/eye-in-painting-with-exemplar-generative-adversarial-networks/

TechCrunch报道:https://techcrunch.com/2018/06/16/facebooks-new-ai-research-is-a-real-eye-opener/


原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-06-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

微博推荐算法如何设计

在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量? 推荐系统诞生很早...

37412
来自专栏AI科技评论

学界 | 谷歌《Cell》论文:光学显微镜+深度学习=荧光显微镜

谷歌在透射光显微镜和荧光显微镜这两种显微镜技术上获得灵感,在《Cell》上发表了利用深度学习来对显微镜细胞图像进行分色荧光标记的论文。 AI 科技评论按:在生物...

37411
来自专栏AI研习社

抠图不再麻烦,Adobe 新算法让 P 图以假乱真

你的朋友圈有被《我的前世青年照》刷屏么?大家之所以这么热情,主要是因为 AI 技术让我们的照片与模板中人物完美融合,看起来毫无违和感。

832
来自专栏腾讯云技术沙龙

王珺:智能音箱语音技术分享

这次分享介绍了在研究方面的一系列新的方法和改进,主要是语音识别,语音识别,声纹识别,以及TTS,在落地应用方面,语音识别中心为多个腾讯的产品有技术支持的输出,如...

2176
来自专栏机器之心

前沿 | Amazing!只需轻轻一点,即可编辑视频中的乐器声音

业余和专业音乐家等可能都需要花费数小时看 YouTube 视频,来学习如何弹奏他们喜欢的歌曲的某个部分。但是如果有一种方式可以玩转视频,将你想听的乐器单独分离出...

653
来自专栏量子位

Facebook上的机器翻译也全面拥抱神经网络了

陈桦 编译整理 量子位 报道 | 公众号 QbitAI Facebook今天宣布,他们已经完成了向神经机器翻译技术的迁移。 换句话说,Facebook目前开始使...

3316
来自专栏FreeBuf

基于时间和地域构建一个网络诈骗形势模型

电信诈骗,网络诈骗层出不穷,花样翻新,是当前公安部重点打击的对象。本文从网络中爬取相关的新闻,通过对时域和数量的统计与分析,实现对网络诈骗模型中时间参量的优化,...

2157
来自专栏灯塔大数据

塔秘 | 宅男的福音:用GAN自动生成二次元萌妹子

导读:相信每个人都会被卡哇伊的二次元妹子萌到,我们很多人也可能梦想自己创作二次元人物,但奈何技艺不精、功力不足,得到的结果往往无法达到我们的期望。现在人工智能来...

4937
来自专栏YoungGy

粒子滤波简介

粒子滤波基于蒙特卡洛方法,用后验概率中随机抽取的粒子集对目标概率密度函数进行近似。本文将简要介绍如何用粒子滤波进行定位并附上相关代码实例。 粒子滤波概述 粒子滤...

2229
来自专栏语言、知识与人工智能

从用户行为去理解内容-item2vec及其应用

从内容属性去理解用户行为,预测用户行为,那么也可以通过理解用户行为去理解内容,预测内容属性。

1.6K9

扫码关注云+社区