专栏首页有三AI【杂谈】有三AI知识星球最近都GAN了哪些内容?

【杂谈】有三AI知识星球最近都GAN了哪些内容?

作者&编辑 | 言有三

1 GAN与人脸年龄编辑

跨年龄的人脸识别和验证是一个非常具有挑战性的问题,如果能对年龄进行归一化,去除年龄因素的干扰,将大大提升跨年龄人脸识别的精度。

有三AI知识星球-网络结构1000变

CAAE

CAAE(Conditional Adversarial Autoencoder)是一个年龄编辑模型,它可以估计年龄变大时的人脸(Age Progression),也可以估计年龄较小时的人脸(Age Regression)。

作者/编辑 言有三

CAAE模型首先假设人脸图像处于一种高维流形(high-dimensional manifold)中,当图像在这个流形中沿着某个特定方向移动时,年龄就会随着发生变化,如下图。

图中点表示的就是各个年龄,而虚线轨迹就是自然的变化方向,不过在高维流形中操作人脸图像是一件非常困难的事情,我们无法直接描绘上述的轨迹。

因此与大部分生成模型的思路一样,首先需要将图像映射到低维的latent space,实际上就是一个低维的向量,最后再把处理后的低维向量映射回到高维流形中。这两次映射分别由Encoder和Generator实现,如下:

Encoder输入图像输出z,之后与年龄标签向量进行拼接作为G的输入。判别器包含两个,一个是Dimg,一个是Dz。年龄标签向量填充后与人脸图进行通道拼接输入到判别器Dimg,该判别器判别生成图的真实性,包含若干个卷积层和若干个全连接层。Dz用于约束z的均匀分布,它包含若干个全连接层。

使用开源代码https://github.com/mattans/AgeProgression,训练结果如下。

上面的成对图中左侧是生成图,右侧是原图,可以看到正面人脸图像效果是非常好的。

参考文献

[1] Zhang Z, Song Y, Qi H. Age progression/regression by conditional adversarial autoencoder[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5810-5818..

2 GAN与人脸表情编辑

表情与年龄一样,也会对人脸识别算法构成一定挑战,年龄和表情编辑同时还是一个兼具娱乐性的应用方向,GAN在其中大有可为。

有三AI知识星球-网络结构1000变

G2-GAN

Geometry Guided Adversarial Facial Expression Synthesis中提出了一个基于关键点的表情编辑GAN,它将人脸关键点的热图作为条件来控制表情的生成与去除。

作者/编辑 言有三

该模型包括两个生成器和两个判别器。生成器GE是一个表情生成器,输入带表情的关键点热图HE和无表情的正脸图IN,生成有表情的图IE。生成器GN则相反,输入带表情的关键点热图HE和有表情的正脸图IE,生成无表情的图IN。

判别器D用于判别真实的三元组(I,H,I’)和生成的三元组(I,H,G(I)),其中I和I’代表的就是无表情和有表情的图。DE中I是无表情图,I’是有表情图,DN中则反之。

整体的损失函数包括4部分:

第一部分是标准的GAN损失,包括生成器损失和判别器损失。

第二部分是pixel loss,用于约束生成器的图与输入图的像素平滑。

第三部分是cycles损失,从输入图到GE,到经过GN,构成了一个闭环。

第四部分是属性保持损失,用于约束身份信息不会被更改,如下式,其中F表示的是人脸识别的特征提取器。

下面是它在CK+表情数据集上的结果。

第一排是无表情,第二排是有表情,第三排是去除表情,第四排是仿真的表情。

上图是不同表情的插值结果,第一列是原图,后面的列是不同幅度的表情,实验结果充分验证了本方法的有效性。

参考文献

[1] Song L, Lu Z, He R, et al. Geometry guided adversarial facial expression synthesis[C]//2018 ACM Multimedia Conference on Multimedia Conference. ACM, 2018: 627-635.

3 GAN与人脸姿态编辑

姿态对人脸识别等算法的影响非常大,将GAN用于姿态仿真,比如正脸化,将非常有助于人脸识别等模型的性能提升。

有三AI知识星球-网络结构1000变

FFGAN

FFGAN是一个人脸姿态编辑GAN,可以实现任意姿态到正脸的生成。

作者/编辑 言有三

从上图结构可以看出,3DMM系数提供了全局的姿态信息以及低频的细节,而输入的大姿态图像则提供了高频细节,两者结合一起输入生成器Generator,并且使用人脸识别模型来进行身份ID信息的保持。

具体的模型结构如下:

整个损失函数包括5部分,除了人脸重建损失,全变分平滑损失,GAN的对抗损失以及人脸识别身份保持损失之外,还添加了一个人脸对称性的约束作为对称损失,其定义如下:

使用Multi-PIE数据集进行训练,结果如下:

FFGAN使用了3DMM模型的系数作为条件控制,首次使用了完全正脸姿态的仿真,这也是后续很多姿态编辑GAN的基本思想。

参考文献

[1] Yin X, Yu X, Sohn K, et al. Towards large-pose face frontalization in the wild[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3990-3999.

4 GAN与人脸美颜

人脸美颜是一个由来已久的研究课题,传统的方法多是基于滤波算法和几何变换,可以实现磨皮美白以及脸型调整。随着GAN的流行,更多的个性化操作变得可行,比如人脸的妆造迁移。

有三AI知识星球-网络结构1000变

BeautyGAN

BeautyGAN是一个人脸妆造迁移算法,它不需要成对图进行训练,可以将一张图的妆造风格迁移到另一张图。

作者/编辑 言有三

如上图是BeautyGAN的结构示意图,它使用了CycleGAN的基本结构。生成器G包括两个输入,分别是无妆图Isrc、有妆图Iref,通过encoder、residual blocks、decoder组成的生成器得到两个输出,分别是上妆图IBsrc、卸妆图IAref。之后再通过把上妆图IBsrc和卸妆图IAref输入给之前的G,重新执行一次卸妆和上妆,得到两张重建图Irec_src和卸妆图Irec_ref。

BeautyGAN的关键在于损失函数的设计,它包含2个主要的损失项:

第一个是perceptual loss:要求上妆和卸妆都不能改变原始的人物ID信息,这里通过Perceptual loss进行约束。

第二个是循环损失(cycle consistency loss),它用于约束一张图经过两次G后与对应的原始图相同,与CycleGAN的不同之处在于这里使用了同一个GAN,损失的定义是一致的,不再多说。

第三个就是直方图匹配损失,定义如下:

直方图匹配损失用于控制脸部、眼部、嘴部三个局部区域的效果。M是掩膜,item分别表示脸部、眼部、嘴部三个区域,HM是一个直方图匹配操作。

使用开源代码https://github.com/baldFemale/beautyGAN-tf-Implement进行训练,测试结果如下:

参考文献

[1] Li T, Qian R, Dong C, et al. Beautygan: Instance-level facial makeup transfer with deep generative adversarial network[C]//2018 ACM Multimedia Conference on Multimedia Conference. ACM, 2018: 645-653.

5 GAN与换脸算法

换脸算法有很多种,已经从实验室走向了工业界,甚至达到了以假乱真的效果,我们后面会给大家持续介绍。

有三AI知识星球-网络结构1000变

Fast Face-swap

Fast Face-swap是一个基于风格迁移的换脸模型,将被换脸图作为内容图,换脸图作为风格图,实现了单张图的人脸迁移。

作者/编辑 言有三

从上图结构可以看出,它首先对输入图像进行正脸对齐,然后使用风格迁移算法将要换的脸图进行面部纹理迁移得到结果图,接着进行反对齐,即恢复人脸的初始姿态,最后基于人脸掩膜与原始图像采用seamless cloning技术进行融合改进。

具体的网络结构如上,采用了多尺度的结构,内容的损失就是标准的L2距离。

风格的损失使用了多个K*K大小的图像块的高层特征向量的余弦距离,如下:

文章中还添加了一个光照损失,通过在同一姿态不同光照条件下训练的Siamese模型来提取特征,然后计算其欧式距离。

完整的实现可以参考众多的风格迁移模型,一些结构如下:

可以看出正脸的换脸效果还是不错的。

参考文献

[1] Korshunova I, Shi W, Dambre J, et al. Fast face-swap using convolutional neural networks[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3677-3685.

本文分享自微信公众号 - 有三AI(yanyousan_ai),作者:言有三

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-12-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【杂谈】如果你想快速系统掌握计算机视觉大部分领域,学习人脸图像是唯一选择

    笔者是从传统图像算法开始进入计算机视觉行业的,那一批人基本上都是从人脸图像和文本图像开始学,而如今很多计算机视觉从业者却从来没有接触过人脸图像相关的算法,或许真...

    用户1508658
  • 【星球知识卡片】人脸属性编辑都有哪些核心知识点,如何长期进行学习

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享人脸属性编辑的核心技术点。

    用户1508658
  • 【杂谈】GAN最成功的3个商业化落地领域,你是否了解过?

    2015年的时候笔者开始关注GAN,公众号早期的文章中就有GAN的综述,这些年GAN的相关研究也是持续井喷。这一次咱们学术上的研究撇开不讲,这么多年过去了,GA...

    用户1508658
  • 人脸检测对齐--Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

    Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networ...

    用户1148525
  • GAN对人脸图像算法产生了哪些影响?

    人脸图像是整个图像领域里面研究人员最多,应用最广的一个方向。GAN作为时下最新兴的深度学习模型,在人脸图像领域里已经颇有建树,今天咱们就聊聊GAN对人脸图像算法...

    马上科普尚尚
  • Milvus 实战|生物多因子认证系列 (二):人脸识别

    视觉 AI 作为一个已经发展成熟的技术领域,具有丰富的应用场景和商业化价值,全球 40% 的 AI 企业都集中在视觉 AI 领域。近年来,视觉 AI 除了在智能...

    ZILLIZ
  • 深度学习之视频人脸识别系列(一):简介

    磐创AI
  • 谷歌GAN 实验室来了!迄今最强可视化工具,在浏览器运行GAN

    Google AI和乔治亚理工学院的研究人员发布了一个学习GAN的交互式网站:GAN Lab!由TensorFlow.js 驱动,在浏览器就可以运行GAN,非常...

    新智元
  • 六种改进均未超越原版:谷歌新研究对GAN现状提出质疑

    选自arXiv 机器之心编译 参与:李泽南、路雪、蒋思源 令人沮丧的结果:尽管目前很多GAN的衍生算法都声称自己要比原版GAN更强大,谷歌大脑的新研究却对这种主...

    机器之心
  • 人脸识别案例:接口返回“图片中没有人脸”

    腾讯云人脸识别产品基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、五官定位、人脸搜索、人脸比对、人脸验证、人员查重、静态活体检测等多种功能,主要以公有云...

    周朋伟

扫码关注云+社区

领取腾讯云代金券