前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【GAN优化】最早被用于评价GAN模型的定量指标Inception Score是什么

【GAN优化】最早被用于评价GAN模型的定量指标Inception Score是什么

作者头像
用户1508658
发布2020-02-26 11:06:09
1.1K0
发布2020-02-26 11:06:09
举报
文章被收录于专栏:有三AI

最近一部分的内容将会比较容易,将和大家一起讨论GAN的评价指标,也没有太难以理解的东西,希望大家踊跃讨论,欢迎留言。

作者&编辑 | 小米粥

编辑 | 言有三

判别模在型中,训练完成的模型要在测试集上进行测试,然后使用一个可以量化的指标来表明模型训练的好坏,例如最简单的,使用分类准确率评价分类模型的性能,使用均方误差评价回归模型的性能。同样在生成模型上也需要一个评价指标来量化GAN的生成效果。

1.质量与多样性

以生成图像的GAN为例,评价指标首先要评价GAN生成图像的质量好坏,但是图像质量是一个非常主观的概念,不够清晰的宠物狗的图片和线条足够明晰但“很奇怪”的图片均应算作低质量的图片,但计算机不太容易认识到这个问题,最好可以设计一个可计算的量化指标。

IS(Inception Score)采用了这样的做法,将生成的图片x送入已经训练好Inception模型,例如Inception Net-V3,它是一个分类器,会对每个输入的图像输出一个1000维的标签向量y,向量的每一维表示输入样本属于某类别的概率。假设我们的Inception Net-V3训练得足够好,那么对质量高的生成图像x,Inception Net-V3可将其以很高的概率分类成某个类,p(y|x)的数值比较集中,形如[0.9,...,0.02,0]。我们可以使用熵来量化该指标,分布p(y|x)相对于类别的熵定义为

其中,p(yi|x)表示x属于第i类的概率,即yi值,为了避免歧义,计算方式展示如下图所示:

熵是一种混乱程度的度量,对于质量较低的输入图像,分类器无法给出明确的类别,其熵应比较大,而对于质量越高的图像,其熵应当比较小,当p(y|x)为one-hot分布时,熵达到最小值0。

GAN另一个需要度量的指标即样本的多样性问题,这与模式崩溃问题有关联但不完全一样,会在本文的最后讨论。若GAN产生的一批样本{x1,x2,...,xn}多样性比较好,则标签向量{y1,y2,...,yn}的类别分布也应该是比较均匀的,也就是说不同类别的概率基本上是相等的(当然这里要假设训练样本的类别是均衡的),则其均值应趋向均匀分布,如下图所示。

又因为

故可使用标签向量y关于类别的熵来定量描述,若生成样本的多样性好(涵盖的类别多),则p(y)相对于类别的熵越大;生成样本的多样性差,则p(y)相对于类别的熵越小,其中定义p(y)相对于类别的熵为

其中,p(yi)表示第i类的概率,即yi值。

2.Inception Score

将图像质量和多样性两个指标综合考虑,可以将样本和标签的互信息I(x,y)设计为生成模型的评价指标,互信息描述了给定一个随机变量后,另一个随机变量的不确定性减少程度。又被称为信息增益,即

又根据

KL散度表示两个分布的差值,当KL散度值越大时,表示两个分布的差异越大;KL散度值越小,分布的差异越小,计算所有样本的KL散度求平均,本质上来讲,指标还是通过信息增益来评价。为了便于计算,添加指数,最终的IS定义成如下形式:

实际计算IS时,使用的计算式子为:

对于p(y)的经验分布,使用生成模型产生N个样本,将N个样本送入分类器得到N个标签向量,对其求均值且令

对于KL散度,计算方式如下:

3.IS的缺陷

IS作为GAN的评价指标,自2016年提出以来,已经具备了比较广泛的接受程度,但也有一些不可忽略的问题和缺陷。

首先,使用TensorFlow, PyTorch 和 Keras 等不同框架下预训练的Inception V3 ,计算同一个数据集的 Inception Score,即使不同框架预训练的网络达到同样的分类精度,但由于其内部权重微小的不同,导致了 Inception Score 很大的变化,在 ImageNet 上,IV3 Torch 和 IV3 Keras 算出的 IS 相差 3.5%,这些差异,足以涵盖某些所谓 state-of-the-art 的模型所作出的提升。

其次,训练GAN和训练分类器必须使用相同的数据集,若Inception V3 是在 ImageNet 上训练的,则使用Inception V3 时,应该保证生成模型也在 ImageNet 上训练并生成相似的图片,不应把任意生成模型生成的图片(卧室,花,人脸)都使用Inception V3获得标签。

另外, IS并无法评价出GAN的过拟合情况,若GAN只“记住”了所有训练集的图片,生成器成为了一个“简单的”随机输出训练集图片的神经网络,此时生成器虽然缺乏泛化能力,仍可以获得很高的分数。

最后,当GAN发生模式崩溃时,IS依旧会给出较高的分数,MS(Mode Score)是IS的改进版本,添加了一项,希望能在评价指标中可以考虑模式崩溃问题,其定义为:

其中,p*(y)表示经过训练数据集的样本得到的标签向量的类别概率,p(y )表示经过GAN生成样本得到的标签向量的类别概率。不过,遗憾的是,IS和MS都无法真正解决模式崩溃的评价问题。考虑这样极端的情况,生成器发生模式崩溃,例如在每个类别中,生成器都只覆盖一个模式(在每一类下只生成一种照片),这样的生成器可覆盖所有类别,这时计算IS或者MS均能得到很高的值,但其实GAN已经发生了严重的模式崩溃。

这里的模式崩溃与之前提到的多样性有所区别,IS中度量的多样性是指:GAN生成的样本可以有多少类,而模式崩溃在这里多指生成器在类内塌缩到某一个或几个样本上,只考虑类别的信息增益只能有效评价生成图像的种类,但对每个类内的生成状况无法做出评价。

[1]Che T , Li Y , Jacob A P , et al. Mode Regularized Generative Adversarial Networks[J]. 2016.

[2]Imporve Techniques for Training GANs. 2016.

总结

今天讲解了IS及其计算方式,讲解了IS的改进版本MS,并在最后指出了IS的诸多问题。

转载文章请后台联系

侵权必究

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有三AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档