GAN的统一架构与WGAN

GAN是让机器自动生成PG去接近Pdata。算法的关键是衡量分布PG,Pdata的差异,不同的衡量办法得到的V(G,D)不同,但是所有的衡量方法都可以归纳到一个统一的框架中:利用f-divergence衡量两个分布差异,利用Fenchel Conjugate将两个分布差异的问题转化到GAN的大框架中。 而近段异常流行的WGAN,便是将两个分布的差异用Earch Mover Distance衡量,然后用weight clippinggradient penalty优化梯度计算,取得了非常好的效果。

原始GAN

原始GAN的演算法如下,通过discriminator的loss与js divergence相关联。

统一架构

f divergence

衡量两个分布的差距有多种方法,这些方法基本上都属于同一个架构f divergence。如下,

通过包含f函数的积分评估了两个分布的差异:

ff函数满足的条件如下(满足这样的条件,Df(P||Q)D_f (P||Q)的最小值当且仅当两个分布完全相同时为0):

不同的f函数会得到不同的divergence,但是都属于f divergence这个大框架中,区别只是f函数的不同。

fenchel conjugate

每一个凸函数f,都有与其conjugate的函数f*,f*的定义如下:

举例如下:

connect with gan

那么一个问题随之而来:f divergence以及fenchel conjugate与GAN到底有什么联系呢?

首先,f divergence提供了一种度量两个分布差异的方式;然而,f divergence需要知道pdf,生成分布的pdf不容易得到;这时候通过f的fenchel conjugate对原来的差异公式进行变换,引入额外的变量D(也就是discriminator),转化成找到令值最大的D的问题,最终化成GAN类似的形式。具体化简过程如下:

总的来说,f divergence以及fenchel conjugate的价值在于:构建了两个分布的f divergence,通过fenchel conjugate将divergence转化为maxDV(G,D)的问题,自然而然地与GAN关联了起来。

其他

GAN的训练在原始paper中是两次循环,f-divergence的paper中是一次循环。

不同的f函数得到的分布差异也不一样,如下:

KLD与JSD相比,对多分布的拟合效果较好:

WGAN

介绍

前面介绍了用f-divergence去度量两个分布的差异,WGAN与传统GAN的区别就是度量分布差异的方式不同。WGAN使用了earth mover's distance,顾名思义,就是把一个分布变成另外一个分布需要花的力气。earth mover's distance的定义如下:

优势

WGAN的优势,主要在于earth mover's distanceearth mover's distance相比js divergence的优点是:当两个分布没有接触的时候,不管距离远近,js divergence的度量都是相同的,而earth mover's distance会考虑到两个分布的距离到底有多远,这样在训练的时候便更容易训练。

如果不使用WGAN,通常的做法是给分布加噪声,让分布有重叠,这样才更容易去训练。

因此,WGAN可以部分解决生成模型的评价问题,可以利用earth mover's distance来监控模型的好坏(更多处于实际操作方面而非理论loss)。

weight clipping

使用earth mover's distance后,WGAN度量分布差异的公式如下:

Lipschitz Function限制条件的作用是:一方面给D(x)加一些控制,不让它任意变大变小,否则都变成无穷值就没有意义了;另一方面限制D(x)的增长速度,提供足够的梯度保证,如下图:

那么问题来了,如何保证D(x)满足Lipschitz Function限制条件呢? 原始的WGAN采用了weight clipping方法,其思路是限制参数的梯度值在一定范围内,这样便通过倒数限制了D(x)的增长速度。这种方法的缺点是c值不好确定。

完整的算法如下:

gradient penalty

之前Lipschitz Function限制条件通过weight clipping解决,这里借助Lipschitz Function的梯度小于等于1的条件,增加过大梯度的惩罚项,具体如下:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【干货】动手实践:理解和优化GAN(附代码)

【导读】本文是机器学习研究员Mirantha Jayathilaka撰写的一篇技术博文,主要讲解了生成对抗网络(GAN)。本文分别从理论和代码实践两方面来介绍G...

38750
来自专栏人工智能LeadAI

文本与序列的深度模型 | 深度学习笔记

Rare Event 与其他机器学习不同,在文本分析里,陌生的东西(rare event)往往是最重要的,而最常见的东西往往是最不重要的。 语法多义性 一个东西...

477100
来自专栏技术沉淀

KNN算法实现及其交叉验证

34730
来自专栏AI研习社

史上最好记的神经网络结构速记表(上)

翻译 / 陈俊雅 校对 / 李傲 整理 / 雷锋字幕组 本文提供了神经网络结构速查表,盘点了神经网络的大量框架,并绘制了直观示意图进行说明,是人手必备的神经网络...

414120
来自专栏大数据文摘

手把手 | 30行JavaScript代码,教你分分钟创建神经网络

18030
来自专栏深度学习之tensorflow实战篇

R语言 判别分析

#判别分析 用以判别个体所属群体的一种统计方法 判别分析重点是两类群体的判别方法 #主要判别分析方法 有距离判别 贝叶斯判别 费歇判别法 1、关键点: #贝叶斯...

30250
来自专栏机器之心

教程 | 仅需六步,从零实现机器学习算法!

从头开始写机器学习算法能够获得很多经验。当你最终完成时,你会惊喜万分,而且你明白这背后究竟发生了什么。

12020
来自专栏大数据挖掘DT机器学习

比较R语言机器学习算法的性能

原文:Compare The Performance of Machine Learning Algorithms in R 译文:http://g...

35160
来自专栏AI科技评论

开发 | 看完立刻理解GAN!初学者也没关系

AI 科技评论按:本文原作者天雨粟,原文载于作者的知乎专栏——机器不学习,经授权发布。 前言 GAN 从 2014 年诞生以来发展的是相当火热,比较著名的 GA...

412130
来自专栏人工智能

人工神经网络ANN

作者:水奈樾人工智能爱好者 博客专栏:http://www.cnblogs.com/rucwxb/ 神经网络是从生物领域自然的鬼斧神工中学习智慧的一种应用。人工...

22900

扫码关注云+社区

领取腾讯云代金券