GAN的统一架构与WGAN

用户1147754

发布于 2018-01-05 14:26:31

9720

发布于 2018-01-05 14:26:31

文章被收录于专栏：YoungGy

原始GAN
统一架构
- f divergence
- fenchel conjugate
- connect with gan
- 其他
WGAN
- 介绍
- 优势
- weight clipping
- gradient penalty

GAN是让机器自动生成PG去接近Pdata。算法的关键是衡量分布PG,Pdata的差异，不同的衡量办法得到的V(G,D)不同，但是所有的衡量方法都可以归纳到一个统一的框架中：利用f-divergence衡量两个分布差异，利用Fenchel Conjugate将两个分布差异的问题转化到GAN的大框架中。而近段异常流行的WGAN，便是将两个分布的差异用Earch Mover Distance衡量，然后用weight clipping或gradient penalty优化梯度计算，取得了非常好的效果。

原始GAN

原始GAN的演算法如下，通过discriminator的loss与js divergence相关联。

统一架构

f divergence

衡量两个分布的差距有多种方法，这些方法基本上都属于同一个架构f divergence。如下，

通过包含f函数的积分评估了两个分布的差异：

ff函数满足的条件如下（满足这样的条件，Df(P||Q)D_f (P||Q)的最小值当且仅当两个分布完全相同时为0）：

不同的f函数会得到不同的divergence，但是都属于f divergence这个大框架中，区别只是f函数的不同。

fenchel conjugate

每一个凸函数f，都有与其conjugate的函数f*，f*的定义如下：

举例如下：

connect with gan

那么一个问题随之而来：f divergence以及fenchel conjugate与GAN到底有什么联系呢？

首先，f divergence提供了一种度量两个分布差异的方式；然而，f divergence需要知道pdf，生成分布的pdf不容易得到；这时候通过f的fenchel conjugate对原来的差异公式进行变换，引入额外的变量D（也就是discriminator），转化成找到令值最大的D的问题，最终化成GAN类似的形式。具体化简过程如下：

总的来说，f divergence以及fenchel conjugate的价值在于：构建了两个分布的f divergence，通过fenchel conjugate将divergence转化为maxDV(G,D)的问题，自然而然地与GAN关联了起来。

其他

GAN的训练在原始paper中是两次循环，f-divergence的paper中是一次循环。

不同的f函数得到的分布差异也不一样，如下：

KLD与JSD相比，对多分布的拟合效果较好：

WGAN

介绍

前面介绍了用f-divergence去度量两个分布的差异，WGAN与传统GAN的区别就是度量分布差异的方式不同。WGAN使用了earth mover's distance，顾名思义，就是把一个分布变成另外一个分布需要花的力气。earth mover's distance的定义如下：

优势

WGAN的优势，主要在于earth mover's distance。earth mover's distance相比js divergence的优点是：当两个分布没有接触的时候，不管距离远近，js divergence的度量都是相同的，而earth mover's distance会考虑到两个分布的距离到底有多远，这样在训练的时候便更容易训练。

如果不使用WGAN，通常的做法是给分布加噪声，让分布有重叠，这样才更容易去训练。