首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >弱水三千,只取你标!AL(主动学习)结合GAN如何?

弱水三千,只取你标!AL(主动学习)结合GAN如何?

作者头像
公众号机器学习与AI生成创作
发布2020-04-28 11:43:14
9650
发布2020-04-28 11:43:14
举报

这次简单记录下、GAN和主动学习结合的一些论文,不当处、望指正~

Active Learning 主动学习:

背景

众所周知,深度学习的崛起和广泛应用是依靠着大量的标注数据的,但在很多场合下,大规模数据的标注成本太高,同时也可能导致训练时间过长。主动学习可挑出所谓高信息的数据去标注,从而降低标注成本、减少训练时间,还可以迭代提升模型表现。

定义

目的是设计一个选择/查询函数(query function),用它来从大量的未标注的数据池中选出具有高价值的待标注数据,递送给人工标注(oracle)后,加入训练集,反复迭代训练模型。

常见手段

主动方法常见的有基于池、基于合成的方法。

  • 基于池(pool):根据预设的选择策略选出的数据交给基准分类器预测,错误时再送人工标注。对于查询策略,如何挑选最有信息量的样本,常见地: 1)Random Sampling:随机选择;2)Uncertainty Sampling:选择当前模型最不确定的样本,如 分类概率为0.5等。但显然,这种策略受异常点、outlier 样本、冗余的样本影响。
  • 基于合成:使用生成模型生成更具有信息的样本。

1. 2017-Generative Adversarial Active Learning

https://arxiv.xilesou.top/pdf/1702.07956.pdf

简介:

第一个将GAN结合主动学习的工作,提出GAAL。采用的手段是基于合成的思路。如下图所示,还是一目了然的。

有趣的是,作者在贡献的声明强调,该工作贡献主要在于:首次将GAN和主动学习相结合,而不是要和各种SOTA方法在什么精确率上一较高下,所以论文的实验部分,作者采用的是SVM做为分类器。

当然,作者也说,我们方法是极具前景的~,并且和基于池的相比,也是competitive的呢,我们的方法也许可以启发后来者、用GAN展开相关的工作(坑已挖好,来跳,哈哈)。

实验:

对于训练数据的初始化是,随机筛选50个样本;每次1个batch对应10次queries。进行了以下几种方法的对比实验:

作者进行的是二分类的实验(多分类类似),MNIST上对数字5和7分类,CIFAR10对automobile 和 horse(也许因为当时GAN生成能力有限,或者也许作者懒得去搞最SOTA的GAN了,反正能够说明问题就行。但是采用的DCGAN实在乏力,在其实验数据上连生成猫和狗都吃力,因此选汽车和马生成效果更好区分些,2333)。作者其实也有提到一些可以改进GAN的方法,但作为未来工作,现在的实验结果先写文发出来,哈哈。

在上图的top子图可以看到,在350个训练样本的时候,GAAL开始超越SVM-active和全监督训练的方法。其他图的具体细节感兴趣可以阅读原文。更多实验结果还有:

2. 2019-10-28 Variational Adversarial Active Learning

https://arxiv.xilesou.top/pdf/1904.00370.pdf

简介:

提出一种基于池的半监督主动学习算法,通过对抗的方式学习采样/选择机制。

使用变分自编码器学习潜码空间,训练对抗网络的判别器区分数据是否被标记。进一步地,VAE和判别器之间进行对抗学习:

VAE尽可能让判别器预测所有的数据都是来自于标记池,判别器尽可能在隐空间层面区分是否为标记数据。作者认为所提出的方法可以学习有效的、低维的隐空间表征,并提供了一种高效的采样/选择方法

如下图所示,(XL,YL)表示打好标签的标记池中的标记数据, (XU)表示在大量未标记数据池中的数据。目标是训练最label-efficient的模型:通过迭代地查询一个固定的采样预算,从未标记池中挑选出最有“信息价值”的b个样本,提供给oracle(人工)进行标注。

表征学习:

Transductive representation learning

使用β变分自编码器进行表征学习。编码器在高斯先验基础上,学习一个隐含低维表征空间,解码器可以重建输入的数据。为补全有标记的数据在表征学习过程中丢失的特征,采用的是transductive learing(在训练过程中,已知testing data(unlabelled data)):

Adversarial representation learning

前面说过,大多数的采样策略的根据是模型的不确定性,例如认为:模型对预测越不确定,未标记样本包含的信息越多。但这种方法受限于异常点。相反,此方法对于采样策略的处理是,通过训练对抗网络去学习如何区分在潜在空间的表征。对抗网络中将输入映射到潜码空间,并且给一个标签,若样本是标记数据,则为1,如果是未标记数据,则为0。关键是、使用对抗的方式,VAE将标记和未标记的数据都映射到相似概率分布的空间,去欺骗判别器说所有的输入均是标记的。当然,判别器则尝试避免欺骗:

采样/选择策略:

假如说要挑选b个高质量样本给人工标注,所用依据是鉴别器的预测分数(挑选b个最低的自信度,D判断出来越小的,越可能是未标记池中的数据)。

实验:

作者在分类分割等任务都做了许多实验、去验证所提出的方法的有效性,这里就不贴了,详见原论文。

3. 2019-12-20 Adversarial Representation Active Learning

简介:

GAAL严重依赖于生成图像的质量,并且生成器和鉴别器并没有得到迭代式的提升。而VAAL仅使用了标注数据训练分类器。不同之前的方法,该文作者在VAAL基础上,提出不仅使用已标注的数据训练分类器,同时还使用未标注的和生成的数据联合训练整个模型。

先暂时写到这吧==

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与AI生成创作 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 2017-Generative Adversarial Active Learning
  • 2. 2019-10-28 Variational Adversarial Active Learning
  • 3. 2019-12-20 Adversarial Representation Active Learning
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档