首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

想要更精确的分类预测结果?多伦多大学等提出半监督式few-shot分类范式

原文来源:arXiv

作者:Mengye Ren、Eleni Triantafillou、Sachin Ravi、Jake Snell、Kevin Swersky、Joshua B. Tenenbaum、Hugo Larochelle、Richard S. Zemel

「雷克世界」编译:嗯~阿童木呀

在少量学习分类(few-shot classification)中,我们希望能够学习这样一种算法,它仅用少数几个标记样本就可以对分类器进行训练。最近在few-shot分类中所取得的进展涵盖了元学习(meta-learning),其中,一个学习算法的参数化模型被定义,并在表示不同分类问题的事件中对其加以训练,其中每个分类问题都有一个小标记训练集和相应的测试集。在这项研究中,我们将这个few-shot分类范式推广到这样一个场景中,其中每个事件中还有未标记样本。我们考虑两种情况:一种情况是假定所有未标记的样本都属于与事件的标记样本相同的一组类别,以及另一种更加具有挑战性的情况,其中提供了来自其他干扰类的样本。为了解决这个问题,我们提出了原型网络(Prototypical Networks)的新型扩展(Snell等人于2017年提出),这些扩展能够在生产原型时使用未标记的样本。这些模型在事件中以一种端到端的方式进行训练,从而学习该如何成功地利用未标记的样本。我们在Omniglot和miniImageNet基准测试版本上对这些方法进行了评估,并使用未标记的样本进行了扩充以适用新的框架。我们还提出了一个新的ImageNet分割,它由一组大的类组成,具有层次结构。我们的实验证实,我们的原型网络可以通过使用未标记样本进行学习从而提高它们的预测能力,就像半监督算法一样。

大量标记数据的可用性使得深度学习方法在与人工智能相关的若干任务(如语音识别、目标识别和机器翻译)中取得了令人印象深刻的突破。然而,目前的深度学习方法在解决那些标记数据稀缺的问题上仍然具有一定的困难。具体来说,虽然目前的方法擅长解决带有大量标记数据的单一问题,但那些可以同时解决各种各样只有少数标记问题的方法还是很匮乏的。另一方面,人类具有一种能够快速学习新类的能力,就像人们到了一个新国家时能够快速学会一种新型的水果。而人类和机器学习之间的这种巨大鸿沟为深度学习的发展提供了沃土。

考虑这样一个设置,其目的是学习分类器,那个人对两个前所未有的类进行区分——金鱼和鲨鱼,不仅给出了这两个类的已标记样本,而且还给出了大量的未标记样本,其中一些可能属于这两个类的其中之一。在这项研究中,我们的目标是,通过在我们的学习集中融入来自我们旨在学习表示的类(红色虚线表示)以及干扰类中的未标记数据,从而向这个更为自然的学习框架迈进一步。

出于这个原因,近来关于few-shot学习的研究越来越多,它考虑了学习算法的设计,特别是在具有小标记训练集的问题上具有更好的泛化。在本文中,我们重点关注few-shot分类的情况,其中给定的分类问题被假定为每个类只包含少数标记样本。少量学习的其中一种方法遵循的是元学习的形式(Thrun等人于1998年、Hochreiter等人于2001年提出),该学习在大量可用的标记数据所生成的各种分类问题中执行迁移学习,迁移到训练期间不可见类中的新型分类问题。元学习可以采用学习共享度量的方式,这是few-shot分类器或通用推理网络的常用初始化。

近年来,这些不同的元学习方法已经促进few-shot分类问题取得了重大进展。然而,这种进步在每个少量学习事件的设置中具有一定的局限性,这与人类在许多方面学习新概念的方式有所不同。在本文中,我们旨在通过两种方式对这种设置进行概括。首先,我们考虑这样一个场景,其中在存在附加未标记数据的情况下学习新的类。虽然在将半监督学习应用到一个单一分类任务的常规设置中取得了很多的成功(Chapelle等人于2010年提出),其中训练和测试期间的类是相同的,但这样的研究尚未解决迁移到训练期间从未见过的类中所面临的挑战,而这也是我们在本文中所考虑的问题;其次,我们考虑的是所要学习的新类并不是孤立的情况。相反,这些未标记样本的大部分来自于不同的类。可以说,这些干扰类的存在为few-shot问题带来了更多且更为实际的难度挑战。

半监督学习的少量学习设置中的样本

这项研究是对这种具有挑战性的少量学习的半监督形式的初次探索。首先,我们对问题进行定义并提出评估基准,这些基准是根据普通少量学习中所使用的Omniglot和miniImageNet基准进行调整的。我们对上面所提到的,有或没有干扰类的两个设置进行了广泛的实证调查。其次,我们提出并研究了三种新型的原型网络扩展,这是一种针对少量学习、半监督设置的的最先进的研究方法。最后,我们在实验中证明,我们的半监督变体能够成功地学会对未标记样本加以利用,且性能表现要优于纯粹监督的原型网络。

我们在文中从以往的研究中总结了关于少量学习和半监督学习相关知识。

针对少量学习的最佳表现方法使用的是元学习所规定的情景式训练框架。而我们的研究所采用的方法是度量学习方法(metric learning methods)。以往在few-shot分类中有关度量学习方面的研究包括深度暹罗网络(Deep Siamese Networks)(Koch等人于2015年提出)、匹配网络(Matching Networks)(Vinyals等人于2016年提出)以及原型网络,它们都是我们在本文中扩展到半监督环境中的模型。这里的基本思想是学习一种嵌入函数,它将属于同一类的样本紧密地嵌入在一起,同时保持将来自不同类的嵌入相距甚远。然后,将支持集和查询集中项嵌入之间的距离用作分类的相似度概念,从而进行分类。最后,与我们在的扩展少量学习环境方面的工作密切相关,Bachman等人(于2017年)在主动学习框架中采用匹配网络,其中,模型在分类查询集之前可以选择在特定数量的时间步中将哪个未标记项添加到支持集中。与我们的设置不同的是,他们的元学习智能体可以从未标记的集合中获取对照标记,而且他们不使用干扰样本。

左图:原型基于相应类样本的平均位置进行初始化的,如在普通原型网络中一样。支持、未标记和查询样本分别具有实线、虚线和白色边框。右图:通过合并未标记样本所获得的精炼原型,它将所有查询样本进行正确分类。

少量学习中的其他元学习方法包括学习如何使用支持集更新学习者模型从而泛化到查询集。而在最近的研究中,涉及对学习者神经网络所使用的权重初始化和/或更新步骤进行学习。另一种方法是训练通用神经架构,如记忆增强循环网络(memory-augmented recurrent network)或时域卷积网络(temporal convolutional network),从而对支持集进行序列性处理并对查询集样本标记进行精确预测。这些其他方法对于少量学习来说也会起到很大的作用,但出于简单性和高效性的考虑,在此项研究中我们选择对原型网络进行扩展。

至于有关半监督学习领域的知识也是非常丰富的,但与我们的研究紧密联系的是自我训练(self-training)(Yarowsky等人于1995年、Rosenberg等人于2005年提出)相关的知识。在本文中,首先在初始训练集上对分类器进行训练。然后使用分类器对未标记项进行分类,并且将最有把握的已预测未标记项添加到训练集中,并预测分类器为假定标记。这与我们对原始网络的软k-均值扩展相类似。事实上,由于软分配与常规原型网络分类器针对新输入的输出相匹配,因此可以考虑重新给原型网络馈送一个新的支持集,新的支持集中增加了来自未标记集的(软)自标记。

在测试期间,在具有不同数量未标记项的tieredImageNet上的模型性能表现。

在这项研究中,我们提出了一种全新的半监督的少量学习范式,其中,一个未标记集被添加到每个事件中。我们还将设置扩展到更为真实的情况中,其中未标记集具有与已标记类所不同的全新的类。一般来说,当前少量分类数据集对于已标记分割和未标记分割来说太小,同时还缺乏层次级标记,为了解决这些问题,我们引入一个全新的数据集—tieredImageNet。我们提出了原型网络的若干个全新的扩展,并且与我们的基线相比,它们在半监督设置下显示出相一致的提升改进。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180306A150IM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券