前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CMU 最新的机器学习研究分析并改进了 GAN 中的频谱归一化

CMU 最新的机器学习研究分析并改进了 GAN 中的频谱归一化

作者头像
代码医生工作室
发布2022-03-07 17:10:41
6840
发布2022-03-07 17:10:41
举报
文章被收录于专栏:相约机器人相约机器人

GAN(生成对抗网络)是尖端的深度生成模型,以制作高分辨率、逼真的照片而闻名。GAN 的目标是从目标数据分布中生成随机样本,而只有一小部分可用的训练样本。这是通过学习两个函数来完成的:生成器 G 将随机输入噪声映射到生成的样本,判别器 D 尝试将输入样本分类为准确(即来自训练数据集)或假(即不是来自训练数据集)(即,由生成器生成)。

尽管 GAN 在提高数据驱动生成模型的样本质量方面取得了成功,但 GAN 的对抗性训练增加了不稳定性。超参数的微小变化以及优化过程中的随机性可能会导致训练失败。不同的架构、损失函数和各种形式的正则化/归一化都被提出来作为提高 GAN 稳定性的方法。

光谱归一化是迄今为止最成功的提议之一(SN)。在训练过程中,SN 使生成器的每一层都有一个单位谱范数。这具有调节鉴别器的 Lipschitz 常数的作用,已被证明可以提高 GAN 训练的稳定性。尽管 SN 应用取得了成功,但为什么这种特殊的归一化如此有效仍是未知数。

卡内基梅隆大学的研究人员最近证明,SN 导致 GAN 训练中的两种主要失败类型:膨胀梯度和消失梯度。众所周知,这些问题会产生 GAN 的不稳定性,导致局部最小值不佳或在收敛之前停止训练。研究人员的主要兴趣是了解为什么 SN 会避免梯度爆裂、梯度消失以及使用上述理论发现改进 SN。

大梯度会放大训练不稳定性的影响,导致学习判别器的泛化误差。选择不当的架构和超参数,以及训练过程中的随机性,会放大大梯度对训练不稳定性的影响,从而导致学习判别器的泛化错误。该团队表明,在 GAN 训练期间,SN 对梯度设置了上限,从而最大限度地减少了这些影响。

出于两个原因,渐变往往会消失。首先,当目标函数饱和时,这通常是由过大的函数参数引起的,梯度消失。对于大输入,标准损失函数(例如铰链损失)和激活函数(例如 sigmoid、tanh)会饱和。当大参数增加激活函数和损失函数的输入时,就会出现饱和。其次,当函数参数(以及内部输出)变得太小时,梯度消失。因为函数参数缩放反向传播的梯度,所以情况就是这样。

GAN(和其他 DNN)被发现在训练期间给定小梯度时会收敛到不良模型。通过仔细设置初始权重的方差,二十多年前最初提出的著名的 LeCun 初始化减轻了这种影响。研究人员表明,SN 管理权重变化的方式在理论上大致类似于 LeCun 初始化。他们凭经验表明,SN 在整个训练过程中保留了梯度消失问题,而 LeCun 初始化仅在训练开始时控制它。

该团队还提供了双向标度谱归一化 (BSSN),这是一种新的归一化技术,基于他们对 SN 和 LeCun 初始化之间关系的新理解,结合了两项基本突破。它提出了一种受 Xavier 初始化启发的新型双向谱归一化,它通过管理内部输出方差和反向传播梯度方差来优于 LeCun 初始化。此外,BSSN 包括一种基于 Kaiming 初始化的新权重缩放方法,这是一种在实践中表现更好的现代初始化方法。

在他们的工作中,该团队还进行了严格的试验,以验证 BSSN 的有用性。根据现有的比较,SN 优于许多其他正则化技术,包括 WGAN-GP、批量归一化、层归一化、权重归一化和正交正则化。因此,研究人员专门比较了 SN 和 BSSN 的性能。

该团队测试了不同的数据集(从低分辨率到高分辨率)以及不同的网络设计(从标准 CNN 到 ResNets)。实验在 CIFAR10、STL10、CelebA 和 ImageNet 上进行,仅举几例 (ILSVRC2012)。

研究结果表明,BSSN能够有效地稳定训练并提高样本质量。在大多数情况下,BSSN 会产生最高质量的样本。这凸显了团队的理论思想在他们的研究中的现实意义。

结论

研究人员的研究结果表明,SN 通过管理鉴别器的扩展和消失梯度来稳定 GAN。另一方面,这种分析可用于任何前馈神经网络的训练。此链接说明了为什么 SN 可用于训练生成器和判别器,以及为什么 SN 在神经网络训练中更广泛受益。在这项研究中,该团队专注于 GAN,因为 SN 似乎对它们产生了不成比例的有利影响。正式扩展这项研究以了解对抗性训练的后果是未来研究的一条有趣路径。

论文:

https://arxiv.org/pdf/2009.02773.pdf

Github:

https://github.com/fjxmlzn/BSN

参考:

https://blog.ml.cmu.edu/2022/01/21/why-spectral-normalization-stabilizes-gans-analysis-and-improvements/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-01-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档