前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生成对抗网络的发展与挑战

生成对抗网络的发展与挑战

作者头像
一点人工一点智能
发布2023-08-25 10:35:17
6780
发布2023-08-25 10:35:17
举报
文章被收录于专栏:一点人工一点智能

作者:董永生、范世朝、张宇、马尽文

来源:信号处理

编辑:郑欣欣@一点人工一点智能

00 摘要

生成对抗网络(Generative adversarial network,GAN)由生成模型和判别模型构成,生成模型获取真实数据的概率分布,判别模型判断输入是真实数据还是生成器生成的数据,二者通过相互对抗训练,最终使生成模型学习到真实数据的分布,使判别模型无法准确判断输入数据的来源。生成对抗网络为视觉分类任务的算法性能的提升开辟了新的思路,自诞生之日起至今已经在各个领域产生了大量变体。

本文的主要内容包括:生成对抗网络的研究现状、应用场景和基本模型架构,并列举了生成对抗网络本身所存在的弊端。

从网络架构、损失函数和训练方式这三方面对生成对抗网络的各种主要典型发展进行归纳;详细总结和分析了生成对抗网络在人脸图像生成和编辑、风格迁移、图像超分辨率、图像修复,序列数据生成、视频生成等各个应用领域的算法以及对应算法的优缺点;介绍了生成对抗网络的常用评价指标并且分析了这些指标的适用场景和不足之处;最后从多个方面对生成对抗网络所面临的挑战进行了讨论,并指出了对其可能的改进方向。

01 引言

深度学习能够通过对数据的深层特征进行学习从而获得数据中更为隐藏而有效的特征,我们利用这些数据特征能够对数据进行高效地预测或者分类。在早期的深度学习研究中,由于反向传播等算法的介入使得学习系统的判别功能很容易实现,因此判别模型的使用变得非常广泛。相应地,由于传统的生成模型例如VAE(Variational auto encoder)往往基于马尔可夫链或者极大似然估计进行构建,这种实现策略会出现很多复杂的概率计算,因此生成模型的发展非常缓慢。

2014年,生成对抗网络横空出世,通过生成器和判别器两个神经网络学习系统的对抗学习进行训练,达到博弈均衡来实现更好的学习效果。早期的生成模型主要是构造一种概率分布函数,并且获得最优参数,使其逼近真实图像的数据分布。GAN使生成器通过对抗学习隐式地学会真实数据的分布,而不需要将其表达出来。因此GAN一经问世就被广泛关注,并将其应用到各个方面。

目前,GAN在图像风格迁移、图像编辑、图像恢复、图像分割和图像检测等方面有着广泛的应用。在风格迁移领域中,文献[3]提出pix2pixGAN使用配对的图像进行训练,将素描图变成实物图。文献[4]利用循环一致性损失对pix2pixGAN进行了改进,使其能够在不需配对的图像上即可训练。在图像编辑领域,深度卷积生成网络(Deep convolu⁃tional GAN,DCGAN)在对输入噪声

进行插值后,可以获得平滑的图像变换效果。文献[6]通过设置风格调制层来控制人脸的信息,实现对人脸某一种风格的编辑等。在图像恢复方面,文献[7]设计了一个新的反射检测模块,将图像的多尺度拉普拉斯变换作为输入进行图像的反光去除等。

GAN虽然被广泛应用,但其在训练过程中仍会出模式不稳定、过重以及崩溃等现象,这仍需要学者们深入探索,才能更好的应用于生活。本文与其他文献综述[8-10]相比更着眼于生成对抗网络模型的发展历程,更深入探索其应用场景,并在此基础上对未来研究方向进行展望。与文献[11]相比,我们在详细总结生成对抗网络发展以及应用的基础上,更加全面地对其面临的挑战以及未来发展趋势进行展望。

02 生成模型

生成模型(Generative model)通常指的是能够拟合真实数据分布,可以产生可观测数据的一系列模型,主要包括变分自动编码器(VAE)、流模型(Flow-based model)、扩散概率模型和生成对抗网络。这些模型可以生成诸如图像、文本、语音之类的各种数据,有着十分广阔的应用。

变分自动编码器(VAE)是一种深度学习模型,它通过使用变分推理来学习输入数据的隐式分布。VAE包含编码器(encoder)、解码器(decoder)两个网格。编码器将输入数据映射到一个低维表示空间,解码器将低维表示还原成原始的输入数据。VAE可以生成多个种类的图像,但需要大量时间来进行复杂的数学计算,且生成图像质量较差。

流模型(Flow-basedmodel)主要由两部分组成:一个生成器和一组分布变换器。生成器负责生成低维隐变量的数据,而分布变换器则使用这些数据生成高维图像数据。流模型的每个变换器都由一组参数来描述,通过学习这些参数并使用变分推理进行训练。流模型通常用来处理时间连续的数据,但易受噪声影响,且训练也比较困难。

扩散概率模型(Probabilistic diffusion model)与传统的生成模型不同,它不再去拟合输入数据的分布,而是学习噪声如何引起信息衰减,再使用学到的方式生成数据。该方法首先定义扩散的马尔可夫链以便于将噪声逐步添加到数据中,再通过逆向扩散来从噪声中生成所需的数据。扩散模型虽然有很好的生成效果,但是在正向过程中完全消除原始数据中的信息是很难的。此外,扩散模型在隐空间中很难提供良好的数据表示,因此很难通过语义内容来对生成数据进行编辑。

生成对抗网络相比上述模型,不仅避免了复杂的数学计算,而且在隐空间上有很好的可解释性,可以很轻易的对生成图像的某些属性进行编辑。具体的模型结构如下图1所示,主要由生成器

和判别器

所组成,以二元博弈的方式进行训练。将随机噪声

传输至生成器中,该噪声可以是多个满足正态分布或者均匀分布的随机数,将其概率分布记为

,生成器便会生成虚假图像

。将虚假图像和真实图像

传递给鉴别器,鉴别器

尽可能地区分生成图像与真实样本图像,真实图像输出结果为

,虚假图像输出结果为

,生成器通过判别器反馈的结果不断优化,直至鉴别器无法鉴别真假,即生成图像的数据分布

与真实图像的数据分布

尽可能地相同。

在整个过程中,判别器要不断的优化自身,来分辨数据的真假,即

应当趋于1,

趋于0。生成器要尽可能地训练使得

趋近于1,通过这种对抗学习,我们可以得到生成对抗网络的优化目标:

图1 生成对抗网络基本模型

在生成对抗网络模型的基础上,通过使用反向传播、梯度下降等深度学习优化算法,避免了复杂的马尔可夫链和极大似然估计计算,使其简单便捷,应用前景广泛。此外,生成器并不直接接触原始数据而是通过判别器的反馈进行训练,使得生成对抗网络一定程度上避免过拟合问题,甚至可以学习一些十分尖锐的数据分布。

该模型虽然方式简单,但仍存在一些不足。首先,生成器只通过判别器的反馈进行训练,并没有显式地得到原始数据的分布;再者,若两者训练不一致,很容易就会导致模式崩溃;生成器的输入是一些随机噪声,导致我们很难去控制生成器输出我们想要的图像;生成效果不好;生成器和判别器使用全连接网络构建则过于简单等等。

03 生成对抗网络模型的理论加清晰地认识

生成对抗网络的理论方面是全方位理解和更GAN模型的重要部本章节将会GAN模型的重要部分,本章节将会从原始生成对抗网络的极大极小博弈、极大似然、非饱和问题以及其他的理论问题进行探讨和说明。

3.1 极大极小博弈

在理论上,当生成器和判别器通过不断的迭代优化达到纳什均衡时,反映在概率空间上则是存在着一个平衡点,此时迭代优化后的生成器

和判别器

均是最优的,假设数据分布的概率为

最优判别器如公式(2)所示

正如前面介绍生成对抗网络模型主要是通过极大极小博弈来实现在概率分布上的一致,接下来使用这种博弈思想对生成对抗网络的具体的理论进行推导,首先,将公式(1)中的数学期望进行展开,其理论推导过程如下所示:

接下来将上述最优判别器公式(2)代入

然后,通过

散度与

散度对上述公式进行转化整理如下:

因此,理论上的最优解只有当

时成立,此时最优解为

,原始的生成对抗网络使用的极大极小博弈实际上是与

散度和

散度均有关联的。

3.2 极大似然博弈

极大似然估计是机器学习中最重要的环节,主要原理就是通过已知的样本的结果,去估计最有可能发生这样结果的参数值和贝叶斯算法有着紧密的联系。原始的生成对抗网络采用了

散度来衡量生成样本和真实样本在空间概率分布之间的距离,可以简单证明当样本数愈来愈多时,最小化

之间的距离本质上就近似的等于极大似然估计,过程如下所示:

3.3 非饱和博弈

原始的生成对抗网络的目标损失函数如上述公式(1),但这种损失函数在实际训练初期存在着梯度弥散的问题,致使生成器无法得到有效的梯度信息。相关学者摒弃了这种设计,采用了非饱和博弈的思想,重新设计了生成对抗网络的目标函数,如下公式(7)避免了在训练初期梯度消失的问题,使得生成器获取的梯度值不会过于偏小,但却带来了模式崩溃的问题,理论上主要是由于生成器在两阶段中获取到的梯度信息不相同,使得生成器会倾向于生成重复但是有用的样本,而不愿意冒险生成不同的样本。后面有学者对其进行了改进和完善,具体将会在下一章节中介绍到。

3.4 其他理论问题

生成对抗网络还有一些其他的理论,比如,生成对抗网络是否学习了目标域的数据分布?目前的研究也指出生成对抗网络中判别器的能力如果强于特定的生成器(可能并非全部),那么从理论上就可以认为GAN是能够学习到具有多项式样本复杂度的数据分布距离,如Wasserstein距离分布和常见的

距离等。

同时,生成对抗网络模型自身具有很强的非线性能力,这也会导致GAN模型的可解释性变得较差,不能更好的从理论层次进行解释,从而使得没有统一的模型定论。以及GAN是否存在记忆、泛化特性等理论问题,目前,研究认为让生成器“学会记住”训练数据相对于让它“学会输出真实”会更加困难,同时,GAN也被证明并不具备很好的泛化特性,主要体现在看似训练并没有出现崩溃现象,但实际上生成的样本分布与实际分布差距甚大,使得很难达到理论上的收敛。

04 生成对抗网络模型的发展

传统的生成对抗网络模型因其较为简单,生成效果差,因此大量研究对其进行了改进,主要在网络架构、损失函数以及训练方式上优化。表1为改进方法汇总。

表1 优化方法汇总

4.1 网络架构优化的GAN模型

为了使生成对抗网络能够更好地应用于生活中,研究人员通过网络架构对GAN进行优化,具体可以分为基于输入、基于输出、基于卷积、基于自编码器等几个方面。

4.1.1 基于条件输入改进的方法

针对输入对GAN的改进,指使用有条件的输入对网络进行约束。Conditional GAN(CGAN)将图像的标签等约束信息作为额外信息

,添加到生成器、判别器中来控制输出。CGAN的优化目标如公式(8)所示:

虽然CGAN可以通过额外的信息来控制生成器的生成,但输入的维度和输出难以关联。此外,该模型需要带有标记的数据集,是一种有监督的方法。为了解决这个问题,InfoGAN(Information maxi⁃mizing GAN)方法被提出,该方法将生成器输入的随机噪声拆分为隐藏编码

和不可分解的噪声

,通过对隐藏编码与输出计算互信息的方式进行约束,使得

的维度和输出的维度相对应,增加了网络的可解释性。Shahbazi等人发现在有限的数据下类标签信息会导致模式崩溃,因此提出了一种无条件学习的GAN的训练策略(Class-CGAN),通过将条件信息逐渐传递给生成器和判别器,不仅可以稳定地对模型进行训练,还可生成高质量的图像。

4.1.2 从输出角度改进的方法

通常将判别器生成的真假二分类值变更为多分类,可实现生成对抗网络输出的优化。Odena等人在CGAN的基础上提出了Auxiliary classifier GAN(ACGAN)模型,该模型选择辅助分类器进行练习,使得在输出时,模型不仅可以输出生成图像是真实图像的概率,还可以输出该图像的类别概率,该模型的损失主要由分类损失

和判别损失

组成,具体如公式(9),其中

分别代表鉴别器给出的源和类别标签的概率分布:

4.1.3 利用卷积模块改进的方法

传统的生成对抗网络的生成器、判别器是由多层感知机形成,生成的质量较差。Radford等人使卷积神经网络与生成对抗网络联结,在网络架构上对其进行优化使得图像质量有所提高。DCGAN生成器的模型架构如图2所示,将100维的噪声向量经变换后,转变为1024通道4×4大小的图像,再经由转置卷积,最终成为3通道64×64大小的图像。判别器和生成器的架构类似,通过一步步进行卷积得到最终的二分类结果。此外Radford在DCGAN提出了一系列优化GAN的方法,这些方法可以使得整个网络更加高效,生成的图像的效果更好。

图2 DCGAN的基本模型

4.1.4 利用自编码器改进的方法

编码器与解码器构成自编码器,编码器提取图像的特征,解码器对编码后的特征进行图像重塑,具有很强的泛化性。基于此,Schonfeld等人借鉴语义分割U-net采用的自编码器结构提出了U-NetGAN,对判别器进行了结构上的重新设计,并引入新的正则化技术提高对真假图像的语义和结构上的辨别力,使生成的图像能够在局部和全局上保持一致。Lee等人同样也对判别器采用了U-net的自编码器结构对GAN模型进行优化,并需要生成器来引导判别器正则化。

4.1.5 基于Transformer结构改进的方法

传统的GAN网络的生成器与判别器采用全连接网络,DCGAN的出现使卷积网络模块得以引入,但CNN存在着局部感受野小的问题,往往需要通过深层次的卷积网络才能获取比较全局的特征信息,然而网络的层数越深,特征信息丢失的概率就越大。而Transformer结构使用的是多头自注意力机制,对比CNN,采用Transformer结构不仅可以高效的获取全局特征,同时特征之间的关联位置信息也能得到提取。

因此Jiang等人提出了TransGAN,对判别器使用Transformer的结构代替传统标准卷积的结构,并对其进行多尺度的训练处理。Xu等人同样也成功地将Transformer引入到判别器,提出了StransGAN(Study on transformer in GAN),并将判别器中的每个残差连接替换为跳跃投影层,用于解决原始GAN在训练过程中存在的收敛速度慢等问题。同时证明了与基于卷积的SOTA的GAN模型相比,Transformer的引入表现出极佳的竞争性能,且有足够的能力生成清晰的图像。

4.1.6 基于知识蒸馏改进的方法

知识蒸馏网络主要由学生模型和教师模型两部分组成,是为了解决大模型难以部署于日常应用中且小模型直接进行训练效果不好的问题而提出的。原始的蒸馏网络,对于教师网络的训练需要大量的数据,因此学生网络很难从教师网络学到真实的分布。生成对抗网络虽然可以通过对抗学习,使得生成器学习数据的真实分布,但是由于需要大量的梯度更新,往往需要很长的时间才能达到训练平衡。

基于此,Wang等人将知识蒸馏和传统的生成对抗网络相融合,提出了KDGAN(Knowledge distil⁃lation with GAN)模型,该模型主要由一个分类器,一个教师网络和一个判别器组成。生成器是学生网络,负责根据输入输出对应的标签;判别器即教师网络,判断标签是来自于真实数据还是来自于学生网络,利用对抗生成的方式模拟蒸馏过程。在该研究的基础上,Zhang等人提出了对抗协同蒸馏ACNs(Adersarial co-distillation networks)这一方法,使用GAN组成对抗阶段,再由多个分类器组成共蒸馏阶段取得了很好的改进效果。

4.2 基于损失函数进行改进

损失函数代表着GAN模型学习的优化方向,一个好的损失函数,可有效的提高GAN训练的稳定性。传统的GAN模型使用

散度来衡量生成的分布和真实分布之间是否重合,但使用

散度时往往会出现梯度消失的问题,为了解决这个问题LSGAN(Leastsquares GAN)用最小二乘法代替损失函数衡量生成分布和真实分布的距离。WGAN(Wasserstein GAN)在LSGAN的基础上进一步改进,使用Wasserstein距离代替散度,解决了

散度不能充分体现两个分布之间差异的弊端。WGAN用Wasserstein距离替换原始GAN采用的散度,衡量真实数据和生成数据分布间的差异,但依然存在着收敛过程容易失败,生成的图像效果质量差的弊端。

针对以上问题,WGAN-GP通过引入新的惩罚项来约束Lipschitz函数,即带有梯度惩罚的正则化方法,提高了GAN模型训练的稳定性且保持了高质量图像的生成。此外使用正则化对GAN的损失函数进行改进的方法还有很多,如Tseng等人在有限的数据集上进行鲁棒性训练,提出了正则化损失使得训练过程更加稳健。Wang等人提出TopoGAN(Topology-aware GAN)算法,在拓扑特征空间中引入了新的损失函数。Jiang等人提出了FFLGAN(Focal frequency loss GAN),这些方法都有效衡量了生成图像和真实图像在数据空间中的分布。此外,Yu等人提出了双重对比损失DCLAGAN(Dual contrastive loss and attention for GAN),对图像表征进行一般化,提高判别器的辨别能力,间接地促进了生成器的图像生成效果。

4.3 针对训练方式进行改进

通常,采用一定的训练策略可促使GAN的训练能收敛到一个合理的空间域,有效地避免模式崩溃、梯度消失和训练不稳定问题的出现,从而使得生成器在对抗中提高生成真实清晰图像的能力,这也使研究人员从训练方式的角度对GAN模型进行改进。Karras等人提出了一种渐进式的GAN的训练方式即ProGAN(Progressive growingof GAN),其主要策略是从低分辨率到高分辨率,循序渐进进行训练,进而提高了生成器生成高清图像的稳定性。

再比如Heusel等人提出了双时间尺度更新规则生成对抗网络(Two time-scale update rule GAN,TTUR-GAN),让生成器、判别器采用不同的学习率,在理论和实验上被证明优于传统的GAN训练。针对传统GAN训练不稳定,容易崩溃等问题,Karnewar等人认为主要原因是判别器流向生成器的梯度,往往会因真假分布不重叠而趋近于零即梯度消失,在此基础,衍生出了多尺度梯度流的训练方式,即MSG-GAN(Multi-scale gradients for GAN),该方法类似于多通道的思想,可使生成器从不同尺度获得更多的梯度信息。此外,由于传统GAN的训练方式是两阶段的交替训练,导致其训练效率低,收敛速度慢。因此Shen等人提出了OSGAN(GAN in one stage),这是一种单阶段的训练方法,在保证生成高质量的图像前提下同时提高了GAN训练的效率。

05 生成对抗网络在应用领域的发展

生成对抗网络可以在不需要知道真实数据分布的情况下,仅通过输入任意噪声就可以生成近乎真实的数据,基于这个特性使得GAN广泛应用,本章主要讨论目前GAN和各个应用领域相结合的发展现状,具体如表2所示。

表2 GAN在应用层面上的分类

5.1 人脸图像生成和编辑

人脸图像生成和编辑指的是使用模型生成高质量的人脸图像,并对图像上的人脸特征进行编辑,比如:头发纹理,肤色,脸部姿态等等。生成图像的常用方法有自回归模型AR(Autoregres⁃sive model),VAE,GAN等等。自回归模型生成的图像清晰,但是它是直接建立图像上像素的分布来生成图像的,并没有获得其潜在表示,同时训练速度较慢;VAE虽然有较快的训练速度,但生成的图像质量比较差;GAN虽然图像清晰,但其分辨率不高。

DCGAN使用深度卷积生成对抗网络来生成图像,ACGAN同时结合了CGAN利用标签和SGAN(Stacked GAN)重建标签生成高质量图像的特点来生成图像,但最终大分辨率图像质量差。为了解决该问题,2017年Karras等人提出了Pro⁃GAN(Progressive GAN)来生成大分辨率图像,效果良好。ProGAN使用了渐进式增长的网络架构,生成器从一个很小的分辨率开始训练,先发现图像的一些大的结构信息,再通过上采样的方式逐级提升分辨率,逐步增加更细节的信息,直到最后生成1024分辨率的图像,同时引入值在0~1的权重

来实现分辨率提升时的平滑过渡,避免网络突然崩溃。如图3给出了生成器在从16×16分辨率提升到32×32分辨率的示意图。

图3 分辨率渐进式提升

ProGAN虽然在图像分辨率上有所突破,但是仍然没有获得隐空间

和图像特征信息之间的关系,很难对图像的特征进行编辑。为此,Karras等人提出了能够进行风格编辑的生成对抗网络Style⁃GAN v1,该网络能够无监督的将生成图像的人脸特征进行解耦,并对这些特征进行特定尺度地控制。该网络借鉴了风格迁移的相关工作,使用AdaIN(Adaptive instance normalization)操作提取出人脸的不同风格属性来对图像进行编辑,主要由映射网络和合成网络组成,将初始噪声

经过全连接层转换为风格化向量

,再根据需要编辑的特征部位将

进行仿射变换传递到AdaIN模块中进行风格化,模型保留了ProGAN渐进式增长的网络架构,能够提升生成图像的质量并且直观的按照特定尺度控制网络的生成。表3为通过消融实验得到的模型中18个风格化模块控制的具体人脸特征。

表3 风格化模块控制的语义信息

StyleGAN v1对人脸特征进行了解耦,方便对人脸的各种属性进行风格化编辑,但是生成的图像存在严重的液滴伪影问题。为了解决这个问题,Karras等人在2020年StyleGAN V1进行了改进(Style⁃GAN V2),通过实验发现伪影问题是由Instancenor⁃malization(IN)标准化层导致的,但是IN层是对人脸图像进行风格化控制的关键,如果简单将IN层删掉,StyleGAN就会失去风格控制的能力。因此Kar⁃ras将IN层用调制层和解调层进行代替。在调制层中,Karras将IN层缩放卷积的每个特征图用缩放卷积权重来代替操作,在调制层进行缩放后进行解调,将输出恢复单位标准差。

StyleGAN v2解决了图像生成过程中出现液滴伪影的问题,但是在图像生成过程中图像的某些特征和坐标绑定在一起,这导致了图像细节是粘在图像的坐标上而非描绘在生成对象表面。为了解决这个问题,Karras等人在2021年对StyleGAN再次进行改进(StyleGAN V3),StyleGAN v2的常数输入被傅里叶特征替换,用理想低通滤波器代替双线性采样等,解决了图像和坐标粘连的问题,使生成的图像质量得以提升。虽然StyleGAN v3效果很好,但是它的训练成本很高,整个项目消耗了92个GPU年,如果没有足够的设备,则需要大量时间才可以训练成功。

StyleGAN解决了图像的生成质量问题,但是对于图像的编辑依然需要从隐空间开始,这种方式并不直观。此外StyleGAN只能够对随机生成的图像进行编辑。2018年Xiao等人提出ELEGANT(Ex⁃changing latent encodings with GAN)实现同时对多个人脸属性进行编辑,可以生成细节更精细,伪影更少的高质量图像。2021年Radford等人提出了CLIP(Contrastive language-image pre-training)模型,该模型在4亿张大小配对的文本与图片数据集上进行训练,能够很好的将图像和文本匹配起来。Wu等人提出了StyleSpace,将隐空间划分为

空间,

空间,

空间,

空间,发现在

空间上对图像解耦效果更好,表4给出了这四个空间的定义。基于上述工作,Patashnik等人提出了StyleCLIP模型,该模型可以使用交互式文本直观的控制图像生成,而不需要手动操作。

表4 StyleSpace对隐空间的定义

5.2 风格迁移

在图像领域中,将一张图像上某些风格特征(纹理、颜色和图案等)使用相应的算法迁移到另一张图像上,同时保持另一张图像的内容语义信息不变,被称为风格迁移。传统上,使用神经网络对图像进行风格迁移,借助于VGGNet(Visual geom⁃etry group)模型提取图像的风格特征并最后输出,但传统方法得到的图像经常模糊。受到Mirza等人的启发,Isola等人将CGAN的思想引入到风格迁移任务中,并提出了新的模型算法被称为Pix2PixGAN,该算法的核心原理主要是输入一张风格图像而不是随机噪声到生成器,生成器通过编码解码生成的图像和原始待变换的图像共同输入判别器,受判别器的反馈指导使得生成的结果和原始的图像内容可以保持一致,这样做可以使获取的结构特征信息更加完整,从而实现清晰的风格化图像,但生成的图像比较单一。

Zhu等人认为GAN生成图像单一的原因是GAN会学习过滤随机噪声。为了实现迁移图像的样式多样化,提出了新的算法称为BicycleGAN(Bijective consistency GAN)。该算法通过cVAE-GAN(Conditional VAE-GAN)和cLR-GAN(Conditional latent regressor-GAN)两个模型实现。cVAE-GAN主要是受到CGAN的启发以及通过改进VAE和VAE-GAN等人方法来设计的,而对于cLR-GAN来说,主要是将生成器生成的伪图像输入到编码器得到潜在噪声,然后将噪声和原始输入生成器的随机噪声进行

范式的损失计算。

然而,上述两种方法实现风格迁移存在一个很明显的缺陷,需要成对的数据图像才可以实现不错的效果,为了改进这个问题Zhu等人提出了Cycle⁃GAN(Cycle consistency GAN),该算法只要两种不同风格的数据图像域

就可以进行训练。Cycle⁃GAN引入了两对的生成判别模型即(两个生成器

和判别器

),如图4所示,该模块结合John⁃son等人在神经网络风格转移与超分辨率方面的方法,在生成器的自编码解码结构之间引入了多个残差模块。此外Zhu在DumouXlin等人的影响下,设计了类似于逆映射的过程,使得CycleGAN能在保证图像内容不变的情况下,以及防止生成器

过度学习目标域的其他特征,引入了Cycle Con⁃sistency Loss,如公式(10):

图4 CycleGAN基本模型

CycleGAN解决了之前需要成对数据训练的问题,同时也带来了无监督的学习思路,是一个具有代表性的算法,后续的大量研究围绕着CycleGAN来改进和推广,如图像的卡通化,可以将现实的图像背景转换成虚拟或者卡通的,最典型的就是Chen等人提出的CartoonGAN算法实现了将现实图像动漫卡通化,以及Dong等人提出的Cartoon⁃lossGAN,通过深层次的学习图像表征和色调对卡通化图像的损失进行改进,以达到更好地卡通化效果。

CycleGAN采用的是无监督的学习方式,但这种无监督的实现需要引入额外的约束条件,即循环一致性损失,类似的约束条件也被Yi和Kim等人中所使用。无监督风格迁移方法的多样性继而导致方法中约束条件也变得多样,比如目前通常使用Shrivastava等人和Bousmalis提出的像素值和像素梯度来起到监督生成的作用。为了解决无约束的无监督,风格迁移任务生成的图像单调的问题,Huang等人受Liu等人提出具有共享潜伏空间的UNIT框架和Almahairi等人将CycleGAN的映射方式进行扩展的启发,提出了使用多模态无监督(Multimodal unsupervised image-to-image translation,MUNIT)的方式去完成风格迁移工作。

该方法指出图像的特征信息可以分为内容特征信息即内容码和风格特征信息即风格码两部分,将原始图像域和其他目标域的内容码放在同一个潜在空间域,而将原始图像和目标图像的风格码分别放置在两个不同的空间域,每次生成只需从空间域中随机选取某个风格码和原始图像的内容码重组,就可以获取到具有多样性的风格特征图像,整体的结构如图5所示。

图5 MUNIT模型框架

对比CycleGAN的算法,MUNIT引入了双向重构的损失,即图像和隐编码的重构损失,两者均以

范式计算损失,两者的重构保证生成的图像能够在编码解码后得到重构。

MUNIT借鉴UNIT提出的共享空间域的想法,通过对风格和内容特征的分离首次将风格迁移扩展到多域。Choi等人提出的StarGAN V2算法,通过对StarGAN进行改进,提高了多域之间的可扩展性。改进点主要在于加入了负责对随机编码映射出不同的伪风格码的映射网络,以及风格编码器用于获取真实图像中的风格码,通过

范式最大化来使衡量风格之间的差异性。StarGAN V2的算法相比于Huang等人、Lee等人和Mao等人的方法在Celeba-HQ和AFHQ等数据集上取得了更好地效果,但由于训练不均衡,部分风格存在过拟合现象。

因此Huang等人提出的UI2I-style算法通过有效地模拟颜色风格减少过拟合,但无法模拟结构的风格。Yang等人受到StyleGAN的启示,在此基础上引入了外部风格控制块,构建成双路风格控制模块称为DualStyleGAN,采用渐进微调的策略弥补在结构风格上的不足,实现了百变画风的效果。

5.3 超分辨率

将低分辨率图像通过一定的算法变成清晰的高分辨率图像,称为超高分辨率。传统上对图像进行超分辨率的方法主要围绕一些经典方法如插值运算、稀疏字典以及局部嵌入等方法来进行的。但这些方法生成的图像往往都是比较模糊的。Ledig等人提出了SRGAN(Super-Resolution GAN),即在图像超分辨率加入GAN,该模型将跳跃连接的深度残差网络添加于传统生成对抗结构上,传统的均方差损失可用判别器与VGG网络高级特征图结合定义新的感知损失代替,用于捕获更多的纹理细节信息。但这种方法获取的纹理信息不够自然,会常常伴随着噪声,且细粒度的纹理信息容易丢失,使生成的图像过于平滑,会给人产生一种视觉差。

Wang等人受到Huang等人提出的稠密卷积网络的影响,在SRGAN的基础上进行了改进提出了ESRGAN(Enhanced super-resolution GAN),将生成器的残差网络块替换为更为紧密的RRDB(Residualin-residual dense block)网络模块,使网络可以学习到更细节的特征信息,将判别器更改为RaD结构。后来Jolicoeur等人还提出了网络插值的方法,减少SRGAN中可能伴随的噪声。

对于超分辨率的算法无法在传统评估指标进行微分的问题,Zhang等人提出了RanksGAN(Ranker for super-resolution GAN),这是一种基于模拟感知的网络,可优化不可微分的感知度量,以及可以在不同的训练数据集中获取多样的生成结果,并且能够将图像真实的纹理信息进行恢复,相比于ESRGAN无论在图像的生成视觉质量和定量指标上都有提高。GAN是图像超分辨率发展迅速的主要原因之一,然而GAN的训练通常不稳定,在超分图像中体现在生成图像会出现感知伪影,Liang等人提出了一种局部判别性学习,且被证明是目前使用盲目超分的方法处理SISR图像性能最好的方法之一。

目前,GAN与图像超分的结合范围越来越广,如He等人提出的GCFSRGAN(Generative and controllable face superresolution GAN)框架无须添加任何先验的条件就可以实现人脸图像的细节超分,是一种端到端的收敛训练,与Zhang等人提出的EGVSRGAN(Efficient and generic video super-resolution GAN)解决图像降质问题的方式十分相似。

5.4 图像修复

图像修复一直是深度学习中活跃的研究领域,指的是基于先验的图像信息对损失像素或者不完整区域的图像进行恢复和修补。传统深度学习对图像进行修复主要使用扩散的方法,通过使用预训练的深度CNN来指导图像的重建和恢复,但往往需要庞大的数据集支持,才能获得比较好的训练模型。为了解决这些问题,Pathak等人将GAN引入图像修复工作中,采用像素预测为驱动的视觉特征表示算法解决图像修复问题,将其方法称为CEGAN(Context encoders GAN),该方法在以缺失图像的周围像素为条件,在上下文的自编码器结构上,可生成任意图像信息的卷积模型,通过引入

重构损失使得修补的图像信息可以提高与上下文之间的连贯性。但由于

损失稳健性较差的特点,往往会导致生成的修补图像会比较模糊,因此Yang等人对自编码器结构进行了改进,提出了多尺度的方法MSGAN(Multi-scaleGAN),提高填充图像的全局和局部一致性,以及使用空洞卷积来替代输入固定且参数庞大的全连接层,使用注意力机制的特性提高对图像上下文特征的理解。

受Iizuka等人提出的GLCIC(Globally and locally consistent image comple⁃tion)方法的启发,Demir等人提出了PGAN(Path of GAN),将带有残差块的生成器与ProGAN的判别器结构引进,极大改善了GLCIC修复图像局部纹理细节的能力,特别是一些自然且不繁杂的图像修复效果更好。正如上述方法,当遇到实际图像场景比较复杂时,局部纹理细节修复的效果不是很理想,故Yu等人根据上下文注意力的思想提出了DeepFillGAN(DeepFill GAN),使用两个生成器对缺失部分的图像进行粗略的估计,相比于GLCIC的模型算法,DeepFillGAN在复杂的人脸和纹理图像中修复能力更强,但主要适用于缺失部分为矩形的图像。Yu等人提出了升级版的算法即DeepFill V2,通过使用PatchGAN和光谱归一化结合即SN-PatchGAN来适用于任意形状缺失的图像,以及在Liu等人和Sangkloy等人的启发,将图像特征通过规则掩码分离为有效像素与无效像素,并使用Sketch的条件输入作为用户干预的例子来指导图像修复结构边缘走向。

针对目前不能修复具有复杂语义纹理信息的较大孔且缺乏一定的实用性。因此Zhou等人提出了一种多同域转换的融合方法即TransFillGAN(Transformations fill GAN),通过参考与目标图像共享场景内容的另一个源图像对图像进行修补,该方法采用了不同尺度但场景相似的多图进行修复,消除了先前的方法存在的伪影,但由于CNN的限制,只能获取局部特征而导致全局的特征丢失,以及注意力机制存在着大量推理计算的限制,恢复具有生动纹理和合理结构的损坏图像仍然效果不理想。

为此,Dong等人提出了ZITS-GAN(ZeroRA based in⁃cremental transformer structure GAN),通过引入Trans⁃former结构代替卷积来逐步完成对图像的修复,利用一个普通注意力和轴向注意力机制的Trans⁃former修复低分辨图像的结构信息,结合零初始化残差连接技术和一个编码器来抽取图像的结构特征信息并增量式的加到预训练好的卷积神经网络纹理修复模型上并进行微调,从而极大的提升了图像修复的效果。

5.5 序列生成

序列通常指的是具有先后顺序的离散数据,传统生成序列数据的方式是使用极大似然估计,计算非常困难。生成对抗网络虽可以通过对抗练习来避免该计算,但在序列数据生成领域中由于离散数据不具有可导性,以及在序列的生成过程中,判别器很难对生成的不完整的序列判断真假,导致生成的效果不好。2017年Yu等人将强化学习和生成对抗网络相融合,提出了Sequence GAN(SeqGAN)这一模型,解决了上述问题。该模型不仅使用强化学习的策略梯度解决了离散数据没有梯度难以反向传播的问题,而且使用蒙特卡洛搜索补全了不完整的序列,使得判别器能够用判别完整序列的方式来对不完整序列进行判别。SeqGAN很好地解决了GAN生成序列数据所面对的主要问题,后续对于序列数据的生成研究主要从自然语言生成和音乐生成两个方面展开。

自然语言有丰富的含义且前后文通常有所关联,如果单纯的使用真假二分类值进行判断是很难的,基于此,Lin等人提出了由一个生成器和一个排序器组成的RankGAN模型,将机器生成多人编辑的句子传入排序器,并给出人编辑的句子作为参考,排序器会根据分数将它们排序。生成器目的是欺骗判别器将生成的句子排在前列,即生成一个比真实数据得分更高的句子,排序器则反之。

通过这种对抗训练来进行自然语言生成。由于RankGAN在文本生成过程中缺乏中间的结构信息并且标量信号只能在文本生成中使用,导致只能够生成较短的序列。为了改进这个问题,Guo等人提出了Leak⁃GAN这一无监督方法通过允许鉴别器将获取的高级特征泄露给生成器来帮助生成器训练,此外该方法还给生成器添加了额外的管理模块用于提取当前单词的特征并指导下一词汇生成,通过这种方式该方法很好的解决了长文本生成的问题。此外,还有其他的进行自然语言生成方面的研究,比如Chai等人提出了CCLGAN(Counter-contrastive learning GAN)使用反对比学习来对生成器进行训练,Hos⁃sam等人提出了ARN(Adversarial auto-regressive networks)通过最小化数据和模型之间的

散度缓解文本生成的模式崩溃问题,使得生成的文本更加真实。

传统的音乐建模主要使用循环神经网络(Recurrent neural networks,RNN)模型,该方法通常使用离散的符号表示音符,相对来说比较复杂,需要一步步的对音符进行生成。为了解决这个问题,Mogrn将RNN与GAN结合起来提出了C-RNN-GAN(Continuous Recurrent Neural Networks GAN)使用连续四元组来表示音调,通过端到端的训练取得了良好效果。

5.6 视频领域

视频生成指的是通过大量的先验信息和场景的变化对下一时刻可能出现的视频进行预测,图像领域与GAN的结合已经实现了质的飞跃。依赖于GAN可以生成优质逼真的图像的,而视频是由连续的多帧图像构成,因此越来越多的学者尝试将生成对抗网络和视频生成领域结合起来。

视频的生成主要是一帧一帧连续的图像序列构成,对于计算机视觉领域上的视频生成主要是随着时间的推移对下一帧的视频进行预测,Vondrick等人提出了VideoGAN,使用了双路的生成模型的设计。后来Zhou等人在此基础上使用与RNN网络的时序建模能力针对预测的时序进行改进,提出了RNN-GAN的框架,对一帧图像进行输入并预测下一帧的视频,而不是随机的噪声。而Xiong等人提出两阶段的视频生成模型即MDGAN(Multidiscriminator GAN),第一个阶段主要注重视频帧的真实性,第二个阶段则主要体现在帧与帧之间的关联性。

第一阶段的结构上采用了Unet结构的跳变链接的策略,第二个阶段则使用了Gram矩阵来维持帧与帧之间物体的运动,MDGAN模型不仅提高了视频的清晰度,也提高了画面的动态感。Clark等人在提出了双视频判别器(Dual video discrimina⁃tor GAN,DVD-GAN),可生成更长更高质量的视频,并在复杂的数据集上证明比先前的方法可生成更加复杂和保真的视频。目前,对于生成高分辨率视频的任务取得了快速的发展,但实现可比的视频生成依然是一个大问题,Tian等人提出了MocoGAN-HD((Motion and content GAN for high defi⁃nition)通过引入一个运动生成器,进行跨领域的视频合成。此外Skorokhodov等在StyleGAN v2的结构基础上提出了StyleGAN-V(Video with style GAN)改进了之前工作未能稳定生成速率的问题,可以将任意长的高分率视频的生成速率固定在64帧。

5.7 3D领域

在当今时代,3D的应用开始慢慢的兴起,无论是日常中的3D建模的立体对象,还是我们游戏中的3D人物的构造,都需要3D对象生成的技术。随着GAN模型的火热,如今3D领域的其他任务也渐渐的出现了GAN模型的身影。之前的工作基本都是在2D图像生成上对GAN进行改进,但是3D图像相对2D图像更加立体,能够传递更多信息,因此也有越来越多的学者开始研究如何使用GAN生成3D图像。

GAN在3D领域的主要应用场景是物体重建,3D重建的方法主要是通过对二维的图像表面的体素来实现重构。2016年Wu等人率先使用了GAN模型来解决3D领域的物体重建问题将其称为3D-GAN,使用3D卷积并根据图像的表面体素,从概率空间对3D物体进行重建。Yang等人引入自编码器结构结合GAN思想提出了3D-RecGAN(3D reconstruction GAN)的框架,可直接输入一张单幅图像重建成3D物体,与传统的需要单幅图像进行多次的不同尺度的输入不同,3D-RecGAN主要是通过获得对象深度视图的立体像素以及结合条件生成对抗网络来深层次的完成对3D物体的重构;Hen⁃zler等人提出了PlatonicGAN,也是一种基于体素的方法,通过一系列有效可分的渲染层来进行3D物体生成。同年Nguyen-Phuoc等人提出了HoLo⁃GAN,通过学习三维特征的rigid-body变换,能够无监督的学习图像的三维表示。

虽然上述两种方法都可以生成比较质量比较好的图像,但是Platonic⁃GAN这种方法会限制生成图像的分辨率,当分辨率提升图像会产生伪影;HoLoGAN需要额外学习如何对图像进行渲染。随着2021年Mildenhall等人提出了神经辐射场(Nerf)模型,该方法能隐式的使用神经网络表示静态物体,并且在网络训练完成后能从任意角度渲染出清晰的图像。基于该方法,Schwarz等人提出了生成辐射场(Graf)方法,该方法改进了Nerf需要大量带有相机位置姿态的同一个物体从不同角度拍摄的图片的缺点,但是该方法无法处理场景中有多个物体的情况,存在一定的局限性。Niemeyer等人对Graf方法进行了改进提出了Giraffe方法,该方法将生成辐射场结合起来,一个场景中有多少物体就生成多少个辐射场,最后将所有特征图组合起来后再对图像的颜色进行渲染。截止到目前,3D与GAN的结合仍不是很充分,未来这方面的研究工作依然存在着挑战。

06 生成对抗网络评价指标

随着生成对抗网络方法出现的越来越多,因此我们也需要好的指标来评价各个模型的性能。评估指标可分为定性评估和定量评估。定性评估是由人来评价生成图像质量的好坏,这种方法虽然直观,但是会消耗大量的人力成本。此外由人来进行判断十分主观,可能不同的时刻给出的结果也不一样。因此可用定量评估评估生成模型的性能。

6.1 Inception score

Inception score(IS)使用在ImageNet数据集训练的Inception Net-V3图片分类器,对生成图像进行质量和多样性评估,计算的结果越高,图像的生成质量越好。

Modified inception score(M-IS)在IS分数的基础上除了考虑图像质量外,对于同一类问题标签引入交叉熵进行计算,在多样性评估上对IS进行了优化,得分越高该模型的性能越好。

Activation maximization score(AMS)考虑到IS只考虑了生成器的多样性,没有考虑到真实数据中的样本分布可能存在不均衡的情况,因此引入了生成数据集和真实数据集的差异来进行优化。AMS与生成对抗网络的性能成反比,AMS分数越高,生成的图片效果越差。

此外还有其他方法对IS进行了改进,比如Mode score(MS)在计算时考虑到了训练集的标签信息等等,虽然IS在一些图像生成方法评价上取得了不错的效果,但也存在不足。首先,它的分类器是在ImageNet数据集上进行训练的,因此只能用来评估生成模型也是在ImageNet数据集上进行训练的模型,即分类模型和生成模型必须在同一数据集进行训练。其次,IS十分敏感,仅仅调整神经网络的权重就有可能让分数发生很大变化,因此单独使用IS对生成网络性能进行判断是不够全面的。

6.2 FID

FID(Frechet inception distance score)改进了IS需要生成数据和训练数据必须在同一数据集训练等问题,直接对生成数据和真实数据在特征层次的距离进行计算。FID的值越大,则两个高斯分布越疏远,GAN性能就越差,反之就越好。FID计算复杂度较低相对来讲评估性能更好。但是FID和IS一样不能很好的处理过拟合问题,在现实中多元高斯分布的假设并不成立。因此后续Gulrajani等人提出了KID(Kernel inception distance)指标借助最大平均差异(Maximum mean discrepancy,MMD)对FID进行了改进。

6.3 Wassertein距离

早期生成对抗网络评价指标通常使用

散度或者

散度来衡量两个样本的相似程度,但是这两种分布在样本之间没有重叠的时候非常差,因此Arjovsky等人引入了Wassertein距离来对GAN进行评估。得到的距离与生成对抗网络的性能成反比。该方法相比于IS和FID最大的优势在于可以很好的对模型进行简单的记忆。相对于

散度和

散度,此法更加平滑,能提供有价值的梯度。

6.4 GAN-train&GAN-test

Shmelkov等人受到准确率和召回率的启发提出了一个新的GAN的评估指标,该指标主要包括三个部分的内容GAN-train,GAN-test,GAN-base。GAN-train衡量生成样本多样性;GAN-test衡量生成样本质量;GAN-base衡量判别器在真实样本上的判别效果。如果一个生成对抗网络模型在上述三个方面得到的准确率比较接近时,可以认为这个模型比较好。

6.5 感知路径长度

生成模型不仅可以生成清晰多样化的图像,还可将不同图片的特征结合起来,那么就需要一个指标可以量化图像风格和原始图像的解耦性能以及和给定图像的融合效果,基于此Karras等人提出了感知路径长度(Percetpual path length,PPL)这一量化解耦性能的方法,该方法使用两个VGG16提取特征的加权差异来表示两个图像的感知距离,通过计算在隐空间进行插值时图像的变化程度来了解纠缠度。

除了上述讨论的生成对抗网络评估方法外,Zhang等人提出了归一化鉴别分数(Normalized relative discriminative score,NRDS)方法,正标签标记真实样本,负标签标记生成样本,通过训练分类器来将真实样本和生成样本两者完全区分,需要训练的epoch越多,说明生成的样本越好。此外还有1-最近邻分类器(1-nearest neighbor classifier,1-NN)计算出生成样本和训练样本的概率分布并进行比较,两者的差异越大那么GAN的性能就越差,其输出分数在[0,1]之间等等。从上述列举中我们看出各个评估指标之间各有优劣,针对的问题和解决方案也不尽相同,因此往往根据应用的场景选择合适的评价指标,或者自己创建一个合理的评估指标。

07 生成对抗网络面临的挑战

生成对抗网络自2014年提出至今发展迅速并取得了很大的进展,但现有的GAN模型并不是万能的,即使目前出现了许多的GAN模型的变体,且这些模型经过逐步改进已经取得了很好的效果,但在解决原有问题的同时也引入了新的问题,诸如GAN训练过程中产生的模式崩溃、模型过重、梯度消失以及如何对GAN从理论上进行合理的可解释性的证明等问题。因此基于现有研究,本文对生成网络面临的挑战总结如下。

7.1 模式崩溃

模式崩溃主要由判别器未能很好的惩罚生成器,使生成器崩塌在一个极小的分布区域内,从而导致生成器误认为只要生成真实的图像就行,因此生成器不断地用生成样本欺骗判别器,进而使生成图像缺乏多样性。目前已经有很多关于模式崩溃的相关研究,比如Durall等人使用二阶信息的优化器来缓解模式崩溃问题,Thanh-Tung等人发现灾难性遗忘(Catastrophic forgetting)和模式崩溃是相互关联的,并通过解决灾难性崩溃问题来缓解模式崩溃,Pei等人提出可插拔分集惩罚模块来强制生成器生成不同图像使模式崩溃得到缓解等等。虽然这些研究一定程度上缓解了模式崩溃问题,但是对于模式崩溃的具体成因并没有统一的结论,模式崩溃问题也未完全解决。后续的研究可以继续从该方向入手,研究模式崩溃机制,推动模式崩溃问题的解决。

7.2 小样本训练

生成对抗网络模型通过不断地学习真实数据的分布进而提高自身的生成能力,但是这个训练过程需要有足够多的数据支撑,若数据量过少会导致判别器易于过拟合。此外生成对抗网络模型需要生成高质量清晰图片,因此就需要高质量图像训练数据集。然而,同时兼备高质量和清晰的图片数据集却是很难获取的。目前Jiang等人已经提出自适应伪增强的策略,使用生成器来对生成数据进行增强从而减轻过拟合问题,使得在小样本的情况下能有效的提高生成图像的质量。因此,如何通过小样本设计出一个性能比较好的GAN的变体模型也是未来的研究工作之一。

7.3 轻量化模型

随着生成对抗网络的发展,已经有很多学者设计出很多有成效的生成对抗网络的变体模型,但是这些模型架构往往非常冗余,导致模型的权重参数繁多,耗损硬件资源,训练效率低下。比如Style⁃GAN V3虽然可以生成纹理清晰、特征丰富的人脸图像,但是整个模型完成训练需要消耗92个GPU年,这在实际应用中是难以接受的。因此后续的研究方向或许可以从这方面出发,通过设计出轻量化的模型结构或尽可能地使用共享、重用的思想,在保证模型性能的前提下,尽可能地减少生成对抗网络模型的参数量、训练效率以及资源消耗,从而设计出一个高性能且轻量化的GAN的变体模型。

7.4 多学科交叉

生成对抗网络经过长时间的发展已经成为一门成熟的领域,涌现出各种各样的GAN模型的变体,后续的研究可以将GAN模型与其他视觉任务诸如图像分割、图像分类甚至目标检测和跟踪等结合起来,来实现各项指标精度在实际投入中的突破。Transformer最初主要是使用多头自注意力机制解决自然语言任务,但是Jiang等人基于该方法改进了GAN的模型架构,使用两个Transformer代替判别器和生成器取得了良好的图像生成效果。

Moes⁃kops等人将对抗损失融入图像分割损失中,再用判别器对分割结果进行判别从而达到更好的效果,同时如何将GAN与强化学习、模仿学习和多模态学习等更好地融合,甚至融入平行智能研究体系,生成出比真实样本更多的虚拟样本。目前,GAN在CV领域已经有很广泛的应用,然而在NLP领域,GAN的适用范围目前并不广泛,未来GAN在NLP领域的发展也是值得思考的。因此,GAN与多学科的交叉融合或可促进AI领域的发展,也是很有意义的发展方向。

7.5 隐私保护

生成对抗网络由于模型的不断改进使得生成的图像越来越真实,使得我们很难判断我们看到的图像的真实性。此外伴随着deepfake以及各种开源式的换脸库,人们可以很简单的将人脸转接到其他图像,这带来了严重的隐私和安全问题。为了解决隐私焦虑以及更好地鉴别出伪造图像,后续学者开始探究图像取证技术,比如文献通过成对一致性学习来检测假图像。在后续的研究我们也可以从该方向入手,寻找更好地手段分辨伪造的图像。

7.6 数据生成

目前很多数据集比如:医疗影像数据集,纹理数据集,卡通数据集等等,由于样本较少,在进行训练时很容易会使网络出现过拟合现象,从而使训练结果变坏。目前最简单的解决过拟合的方法就是增加数据量,但是上述数据集由于其特殊性,很难从自然界增添大量数据,因此有研究者探究如何使用神经网络来生成上述样本数据。目前已经有了一些关于医学数据、卡通数据生成的相关研究,比如Sun等人通过生成对抗网络可以生成高分辨率的三维医学图像。而对于纹理图像目前的研究主要集中在纹理合成方面,有关纹理生成方面的研究极少。因此后续的研究可以围绕如何使用生成对抗网络生成质量更高,更加符合真实数据分布的样本展开,更高效的生成数据。

7.7 文本风格迁移

传统的图像风格迁移方法比如:CycleGAN、CartoonGAN都需要从原始的风格图像中提取风格特征后才能对输入图像进行风格化。但是在某些时候可能我们并没有对应的风格图像,却依然想进行风格迁移,这些方法就失去了效用。因此后续的研究可以从如何使用文本指导图像进行风格迁移展开。使用文本指导图像风格迁移最主要的问题是如何获取文本中包含的风格信息,2021年OpenAI提出了CLIP模型,该模型可以将文本与其对应的图片进行配对,Gal等人将该模型与StyleGAN结合实现了跨域的由文本指导的图像风格迁移。虽然目前文本风格迁移的研究已经有所突破,但是依然受到文本歧义性以及预训练模型的限制,有很大的改进空间。

7.8 评定距离和指标

原始生成对抗网络是通过

散度来衡量生成的样本分布和真实的样本分布在概率空间上的距离,但这种散度本身存在着弊端,往往会导致生成器的梯度弥散,致使对抗无法得到理论上的实现,后面也随之出现了改进的方法,如最小二乘法、Wasserstein距离以及积分概率度量(IPM)等等距离评定方法,但这些散度和距离都无法很好的评定GAN,因此,尝试提出比较彻底新颖的散度或者距离甚至是新类别的分布衡量函数,也是目前GAN发展的挑战之一。同时,对于GAN模型生成样本的新的评定指标的研究也是一种难题,目前存在的IS、FID和KID等质量评定指标无法有效的评定,都存在着一定的缺陷,因此,新的样本质量和多样性的评分指标的研究也是GAN能否得以进一步发展的重要部分,同时也是目前所面临的挑战之一。

08 总结

生成对抗网络目前在人工智能领域扮演者越来越重要的作用,了解生成对抗网络的研究现状对其后续发展有着重要意义。本文首先对生成对抗网络的基本架构进行介绍,然后从输入、输出、模型架构、损失函数和训练策略等方面对GAN的发展历程进行了讨论与分析,以及对生成对抗网络近几年在视觉应用领域方面的工作进行汇总分析,并介绍了有关评估生成对抗网络性能的常用指标。最后,我们展望生成对抗网络未来的研究挑战如GAN模型存在模式崩溃、小样本训练、轻量化模型、多学科交叉、隐私安全保护、数据生成、文本风格迁移和评定距离指标等方面探究了生成对抗网络的未来研究方向和挑战。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档