盘点生成式对抗网络从诞生到出圈的发展史

HuangWeiAI

发布于 2020-04-14 15:17:31

1.3K0

发布于 2020-04-14 15:17:31

文章被收录于专栏：浊酒清味

前言

5年前，生成式对抗网络(GAN)开启了深度学习的革命。这场革命取得了一些重大的技术突破。生成式对抗网络是由Ian Goodfellow等人在论文《生成式对抗网络》中提出的。学术界热烈欢迎GAN，工业界也大张旗鼓地欢迎GAN。GAN的崛起是不可避免的:

首先，GAN最好的地方是它的学习性质，是无监督的。GAN不需要带标签的数据，这使得GAN非常强大，因为不需要进行无聊的数据标记工作。
其次，GAN的应用角度非常广。它们可以生成高质量的图像、增强照片、从文本生成图像、将图像从一个域转换到另一个域、随着年龄的增长改变面部图像的外观等等。这样的例子不胜枚举。在本文中，我们将介绍一些广泛流行的GAN架构。
第三，关于GAN的无穷无尽的研究是如此迷人，以至于它吸引了所有其他行业的注意。我们将在本文的后面部分讨论主要的技术突破。

GAN的诞生

生成式对抗网络简称GAN，是由两个网络构成，一个是生成器网络，一个是鉴别器网络。这两个网络可以是神经网络，从卷积神经网络、递归神经网络到自动编码器。两个网络参与了一场竞争游戏，并试图超越对方，在各自的任务中互相帮助。经过数千次的迭代，如果一切顺利，生成器网络在生成逼真的假图像方面变得完美，而鉴别器网络在辨别显示给它的图像是真还是假方面变得完美。

GAN有许多实际的用例，比如图像生成、艺术品生成、音乐生成和视频生成。此外，它们可以提高图像的质量，使图像风格化或着色，生成人脸，并可以执行许多更有趣的任务。

上图展示了一个基本GAN网络的结构。首先，从潜在空间中采样一个d维噪声矢量，并将其输入到发生器网络中。发生器网络将这个噪声矢量转换成图像。然后将生成的图像输入鉴别器网络进行分类。鉴别器网络不断地从真实数据集和生成器网络生成的图像中获取图像。它的工作是区分真假图像。所有GAN架构遵循相同的设计。这就GAN的诞生。

GAN的发展壮大

在它的发展期，GANs产生了广泛流行的架构像DCGAN, StyleGAN, BigGAN, StackGAN, Pix2pix, Age-cGAN, CycleGAN。这些架构展示了非常有前途的结果。

DCGAN

GAN中首次使用了卷积神经网络，取得了令人印象深刻的效果。在此之前，卷积神经网络在有监督的计算机视觉任务中已经显示出前所未有的效果。但是在GAN中，CNNs还没有被探索过。DCGANs是由Alec Radford、Luke Metz、Soumith Chintala等人在《具有深度卷积生成对抗网络的无监督表示学习》一文中提出的。它是GANs研究的一个重要里程碑，因为它引入了主要的架构更改来处理诸如训练不稳定性、模式崩溃和内部协变量移位等问题。此后，在DCGAN架构的基础上，出现了大量的GAN架构。

BigGAN

这是GANs在图像生成方面的最新发展。谷歌的一名实习生和来自谷歌DeepMind部门的两名研究人员发表了一篇题为《大规模GAN训练用于高保真自然图像合成》的论文。

这些图像是由BigGAN生成的，如您所见，它们的质量令人印象深刻。GAN第一次生成了高保真度、低变化间隙的图像。之前的最高分数是52.52分，而BigGAN的分数是166.3分，比目前的SOTA要高100%。此外，他们还将Frechet初始距离(FID)分数从18.65提高到了9.6。这些都是非常令人印象深刻的成果。

StyleGAN

StyleGAN是GANs研究的另一个重大突破。StyleGAN是由Nvidia介绍的，在一篇题为“一个基于样式的生成对抗网络的生成器架构”的论文中被提出。

StyleGAN创造了面部生成任务的新记录。该算法的核心是风格转换技术或风格混合。除了生成人脸，它还可以生成汽车、卧室等的高质量图像。这是GANs领域的一个重大改进。

StackGAN

StackGANs是由Han Zhang、Tao Xu、Hongsheng Li等人在他们的论文《StackGAN:使用堆叠生成对抗网络的从文本到真实图像的合成》中提出的。他们使用StackGANs来探索文本到图像的合成，并取得了令人印象深刻的结果。StackGAN是一对网络，当提供文本描述时，它们会生成逼真的图像。

CycleGAN

CycleGANs有一些非常有趣的用例，例如将照片转换成绘画，反之亦然，将夏天拍的照片转换成冬天拍的照片，反之亦然，或者将马的照片转换成斑马的照片，反之亦然。CycleGANs是由朱俊彦、Taesung Park、Phillip Isola和Alexei a . Efros在一篇题为“使用周期一致的对抗网络进行不配对的图像到图像的翻译”的论文中提出的。CycleGANs探索了不同的图像到图像转换用例。

Pix2pix

对于图像到图像的转换任务，pix2pix也显示了令人印象深刻的结果。无论是将夜间图像转换为白天图像，还是将黑白图像着色，将草图转换为照片等等，Pix2pix在所有这些用例中都表现出色。pix2pix网络是由Phillip Isola, junyan Zhu, Tinghui Zhou，和Alexei A. Efros在他们的论文《有条件对抗网络的图像到图像的翻译》中介绍的。

Age- cgan(年龄条件生成对抗网络)

人脸老化有许多行业用例，包括跨年龄人脸识别、寻找失踪儿童和娱乐项目。Grigory Antipov、Moez Baccouche和Jean-Luc Dugelay在他们的论文《有条件生成对抗网络的面部衰老》中提出老。

出圈

GAN强大的力量让它逐渐从学术界发展到工业界，甚至开始“出圈”了。

埃德蒙德贝拉米

在佳士得的拍卖会上，一幅由生成式对抗网络创作的油画《埃德蒙德贝拉米》以惊人的43.25万美元的价格成交。这是GAN出圈的一大步。第一次，全世界见证了GAN的潜力。在此之前，GAN主要被限制在研究实验室中，由机器学习工程师使用。这个案例成为GAN进入公众视野的一个入口。

不存在的人

最近一个网站由优步软件工程师Philip Wan创建，网址为https://thispersondoesnotexist.com。他根据英伟达发布的名为StyleGAN的代码创建了这个网站。每次你点击刷新，它都会生成一个新的假脸，它看起来出奇地真实，却无法分辨它是不是假的。这是可怕的，但同时也是破坏性的。这项技术有潜力创造无限的虚拟世界。

DeepFake

DeepFake是另一个可怕但具有颠覆性的技术。基于GAN，它可以在视频中把人的脸粘贴到目标人物身上。网络上也到处都是赝品。人们猜测这项技术的缺点。但对人工智能研究人员来说，这是一个重大突破。这项技术有可能为电影行业节省数百万美元，因为在电影行业中，需要花费数小时的剪辑工作，才能让特技演员的脸和演员的脸一样。