专栏首页人工智能前沿讲习SFFAI分享 | 古纾旸:Generative model is more than just GANs【附PPT与视频资料】

SFFAI分享 | 古纾旸:Generative model is more than just GANs【附PPT与视频资料】

关注文章公众号 回复"SFFAI22"获取PPT资料 视频资料可点击下方阅读原文在线观看

导读


近些年来,随着深度学习和对抗生成网络的兴起,图像生成领域取得了巨大的进步。然而,对于计算机视觉领域的生成问题,并非只有生成对抗网络这样唯一的解决途径。在SFFAI22我的演讲中,我们将以两篇工作为例,介绍常见的生成模型,以及对于生成模型中的不同问题我们的解决方案:

  1. With GAN: 在肖像编辑的问题中,我们怎么利用GAN同时解决多样性,高质量和可控性的问题。
  2. Without GAN: 在图像风格迁移的任务中,我们怎么解决局部信息和全局信息难以同时保留的问题。

作者简介


古纾旸,17级中国科学技术大学和微软亚洲研究院(MSRA)联合培养博士生,主要研究领域为计算机视觉中的生成模型,具体研究方向有图像风格迁移,生成对抗网络,人脸图像编辑等。欢迎和大家一起交流讨论!

具体内容推文分享


1. 首先简单介绍了常见的生成模型,如AE/VAE, GAN, Glow等。

2. 介绍了一个用GAN解决人脸肖像编辑任务的例子。前人在这方面的工作有着以下一些问题:或者专注于特定的任务(eye in-painting),或者需要大量标注了的表情的数据(GANimation),或者生成的人脸质量不高(neural face editing),我们希望能有一种通用的,高质量的,可控的人脸肖像编辑的方法。基于此,我们提出了我们的论文”Mask-Guided Portrait Editing with Conditional GANs”。

图一 我们的算法框架

我们的网络主要分为三个部分,分别称为Local Embedding Sub-Network, Mask-Guided Generative Sub-Network, Background Fusing Sub-Network,分别用来对局部特征编码,借助人脸分割图片进行真实人脸渲染和前景背景融合。

我们进行了对比实验来分别验证了三个子网络的有效性,通过进行人脸图像编辑,人脸交换,渲染人脸的实验来证明了我们的方法具有通用,高质量,可控的特点。此外,由于我们的方法具有从人脸分割图片到人脸一对多的特性,我们将其用于人脸图像分割的数据增强,也能得到更好的结果。我们也展示了我们的方法在极端条件下的结果,来证明我们的方法具有很好的鲁棒性。

图二 肖像编辑的实验结果

3. GAN是一个强有力的工具,然而有些情况并不适合用GAN来解决,下面举了一个图像风格迁移的例子。

之前的图像风格迁移的方法一般或者注重于全局风格特征,或者注重于局部风格特征统,我们一般用

图三 全局风格损失函数

来衡量全局风格特征,用

图四 局部风格损失函数

来衡量局部风格特征。我们希望能提出一种简单快速的算法,同时兼顾到两者。

在论文”Arbitrary Style Transfer with Deep Feature Reshuffle”中, 提出利用深层特征重排列(deep feature reshuffle)来做到这一点。

图五 图像层面的重排列(reshuffle)示意图

核心想法是通过深层特征重排列,我们可以同时最小化全局风格损失函数与局部风格损失函数。我们在理论上证明了这一点。

图六 我们的核心想法的简短理论证明

在实际运算的过程中,我们对重排列的强约束进行了放松,并提出了一种快速的近似算法。通过在多层进行重排列,并逐层用EM算法进行优化,我们能得到同时兼顾全局风格与局部风格的结果。我们也在纹理生成等相关任务上验证了我们的想法的有效性。

图七 我们风格迁移的实验结果

如果我们直接用GAN来做这样的任务,一方面我们很难解释清楚生成网络中到底做了什么,另一方面不能直接对任意给定的两张图片进行风格迁移。我们选择了从理论上去分析问题,根本的解决了这样的问题,并在实验上能取得显著更好的结果。这启发我们不能遇到生成类的问题都想着直接利用生成对抗网络来做,一定要仔细分析问题,再选择合适的工具。

Take home message


  1. 生成对抗网络是一个很强大的工具。
  2. 我们一定不能盲目使用生成对抗网络,对于不同的任务要仔细分析问题。
  3. 现在生成模型方面还有很多能做的东西,大家可以仔细思考选择自己的课题。

Reference

Arbitrary style transfer with deep feature reshuffle. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8222–8231, 2018.
Eye in-painting with exemplar generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7902–7911, 2018. 1
Ganimation: Anatomically-aware facial animation from a single image. In Proceedings of the European Conference on Computer Vision (ECCV), pages 818–833, 2018. 1
Neural face editing with intrinsic image disentangling. In Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on, pages 5444–5453. IEEE, 2017. 1
Mask-Guided Portrait Editing with Conditional GANs. Will be published in CVPR2019.
High-resolution image synthesis and semantic manipulation with conditional gans. arXiv preprint arXiv:1711.11585, 2017.
Unpaired image-to-image translation using cycle-consistent adversarial networks. arXiv preprint, 2017.

SFFAI招募召集人!

Student Forums on Frontiers of Artificial Intelligence,简称SFFAI

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier),作者:古纾旸

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • GAN对人脸图像算法产生了哪些影响?

    人脸图像是整个图像领域里面研究人员最多,应用最广的一个方向。GAN作为时下最新兴的深度学习模型,在人脸图像领域里已经颇有建树,今天咱们就聊聊GAN对人脸图像算法...

    马上科普尚尚
  • 精选论文 | 人脸图像合成【附打包下载】

    最近,人脸图像合成技术越来越受到社会各界的关注。人脸图像合成技术不仅可以实现“换脸”、“人脸编辑”等娱乐效果,而且能够有效提高人脸识别等技术的性能。今天,两位主...

    马上科普尚尚
  • 基于姿态的人物视频生成【附PPT与视频资料】

    合成特定姿态下的人物图像,并进一步让人物动起来,做出逼真,连贯的动作,是多媒体领域颇具趣味的研究方向。近年来,图像生成及图像翻译领域快速发展,为人物动作视频合成...

    马上科普尚尚
  • typescript叫anyscript?不存在的

    强烈建议使用vscode,因为都是同一家,对ts的支持和开发体验是非常棒的,大大增加了开发效率和质量,避免各种错误。

    lhyt
  • TypeScript 疑难杂症

    作者:阿伟 - 身在高楼心在北大荒,我就这副死样~https://zhuanlan.zhihu.com/p/82459341

    ConardLi
  • 在 TS 中如何减少重复代码

    相信有些读者已经听说过 DRY 原则,DRY 的全称是 —— Don’t Repeat Yourself ,是指编程过程中不写重复代码,将能够公共的部分抽象出来...

    阿宝哥
  • tp5集成ElasticSearch

    mappings有点类似我们定义 MySQL的 数据库表结构的时候,需要指定每个字段的名字,其数据类型一样。当然,这个定义过程,也指明了这个表结构一共含有多少个...

    php007
  • [Python]函数的各种传参

    可以看出,在定义函数时,在参数前面加入一个*,就可以使得函数内部得到一个tuple数组。

    祥知道
  • ElasticSearch(7.2.2)-es之term的多种查询

    cwl_java
  • oracle中的数组(第一篇)(r4笔记第9天)

    数组在各种编程语言中都是很重要的数据结构实现,在oracle中也有自己的一席之地。自己简单做了几个实验,发现很多东西还是眼高手低,真实去做的时候,里面还是有不少...

    jeanron100

扫码关注云+社区

领取腾讯云代金券