CVPR 2018 | Spotlight 论文:非参数化方法实现的极端无监督特征学习

选自arXiv

机器之心编译

参与:乾树、刘晓坤

本研究受监督学习中的输出排序的启发,指出数据本身的表面相似性而非语义标签,使得某些类比其他类更加接近。研究者据此提出了一种极端化的无监督学习方法,主要特点是非参数化训练、实例级判别(一个实例视为一个类)。在 ImageNet 上的实验结果表明,该方法在图像分类方面远超过最先进的无监督方法。若有更多的训练数据和更好的网络架构,该算法会持续提高测试结果。

深度神经网络,特别是卷积神经网络(CNN)的兴起,在计算机视觉领域取得了若干突破。大多数成功的模型都是通过监督学习进行训练的,而这需要大量的依任务类型而定的特定标注数据集。但是,在某些情况下,获取标注数据通常代价昂贵甚至不可行。近年来,无监督学习受到学界越来越多的关注 [5,2]。

研究者在本文中提出的无监督学习的创新方法源于对监督学习物体识别结果的一些观察。在 ImageNet 上,top-5 分类误差远低于 top-1 误差 [18],并且图像在 softmax 层输出中的预测值排第二的响应类更可能与真实类有视觉关联。

如图 1 所示,包含猎豹(leopard)的图像被识别成美洲豹(jaguar)的概率比识别成书柜(bookcase)高很多 [11]。这一观察表明,经典的判别式学习方法在没有干预时可以自动发现语义类别之间的表面(明显的)相似性。换句话说,明显的相似性不是来自语义注释,而是来自图像本身。

图 1:激励研究者提出无监督方法的有监督学习效果图。以猎豹图片为例,网络输出的几个最高响应类都是视觉相关的,例如美洲豹和猎豹。数据本身的表面相似性而非语义标签,使得某些类比其他类更加接近。该无监督方法将类监督发展到极致,并学习了辨别各个单独实例的特征表示。

研究者将类监督发展到极端的实例监督,并提出这样的问题:我们是否可以通过纯粹的判别学习来学到反映实例间表面相似性的度量?图像本身具有鲜明的特征,并且每幅图像与相同语义类别中的其他图像都可能有很大差异 [23]。

如果我们在没有语义信息的情况下学习区分单独实例,那么我们最终可能会得到一个可以捕获实例间的表面相似性的特征表示,就像类监督学习在类别间仍然保留表面相似性那样。

无监督学习作为实例级别的判别形式在技术上也引人入胜,因为它可以受益于监督学习判别网络的最新进展,例如,新的网络架构。

然而,现在我们还面临着一个重大挑战,即现在「类别」的数量就是整个训练集的大小。对于 ImageNet 来说,「类别」将是 120 万而不是 1000 个类。简单将 softmax 扩展到更多的类是不可行的。研究者通过使用噪声对比估计(NCE)[9] 逼近的 softmax 分布并采用近端正则化方法 [29] 以稳定训练过程来解决这个挑战。

为了评估无监督学习的有效性,过去的工作如 [2,31] 依赖于线性分类器(例如,支持向量机(SVM)),在测试时将学习到的特征与类别信息结合以便进行分类。但是,我们不清楚未知的测试任务为什么可以将训练学习到的特征线性分离。

研究者提倡在训练和测试时都采用非参数化方法。他们将实例级别的分类看作度量学习问题,其中实例之间的距离(相似度)是以非参数方式直接从特征中计算得到的。也就是说,每个实例的特征都存储在离散的内存块中,而不是网络中的权重。

在测试阶段,使用基于学习度量的 k-近邻(kNN)进行分类。因为模型的学习和评估都与图像间的相同的度量空间有关,所以其训练和测试是一致的。研究者总结了与 SVM 和 kNN 的准确率对比实验结果。

实验结果表明,在无监督领域,该方法在图像分类方面远超过最先进的方法。具体地,在 ImageNet 1K [1] 上的 top-1 准确率为 46.5%,Places 205 [41] 为 41.6%。若有更多的训练数据和更好的网络架构,该算法会持续提高测试结果。

通过微调学习到的特征,可进一步获得半监督学习和物体检测任务的具竞争性的结果。最后,该非参数化模型非常紧凑:每张图片有 128 个特征,存储一百万张图像仅需 600MB,从而在运行时实现快速最近邻检索。

图 2:本文提出的无监督特征学习方法的工作流图。研究者使用骨干 CNN 将每个图像编码为 128 维空间并进行 L2 归一化的特征向量。最佳特征嵌入过程是通过实例级判别器学习的,该判别器尝试将训练样本的特征最大程度地散布在 128 维的单位球上。

表 1:通过在学习到的特征上应用线性 SVM 或 kNN 分类器在 CIFAR10 的 Top-1 准确率。本文提出的非参数化的 softmax 优于参数化的 softmax,并且用 NCE 方法 得到的准确率随 m 单调递增。

图像分类

研究者在 ImageNet ILSVRC [34] 上学习特征表示,并将他们的方法与代表性的无监督学习方法进行比较。

实验设置。研究者通过经验验证来选择并设计参数。具体来说,他们设定 τ= 0.07,并使用 m = 4,096 的 NCE 来平衡性能和计算成本。该模型使用带 momentum 的 SGD 训练 200 个 epoch。批量大小为 256,学习率初始化为 0.03,在训练 120 个 epoch 后每 40 个 epoch 乘一次 0.1。

对比实验。研究者将他们的方法与随机初始化的网络(作为下界)及各种无监督学习方法进行了比较,包括自监督学习 [2,47,27,48]、对抗学习 [4] 和 Exemplar CNN [3]。split-brain 自编码器 [48] 提供代表当前最佳水平的强大基线。

在他们的初版论文中,他们的实验网络都基于 AlexNet 架构 [18],除了 exemplar CNN [5],其基于 ResNet-101 [3]。由于网络架构对性能有很大影响,研究者考虑了一些经典的架构:AlexNet [18]、VGG16 [36]、ResNet-18 和 ResNet-50 [10]。

研究者使用两种不同的标准评估性能:(1)对从 conv1 到 conv5 的中间特征运行线性 SVM。注意,VGG16 和 ResNet 中也有对应层 [36,10]。(2)对输出特征运行 kNN。

表 2:在 ImageNet 上的 Top-1 分类准确率。

表 3:直接基于在 ImageNet 上学习特征的、没有微调的在 Places 上的 Top-1 分类准确率。

图 5:查询示例的检索结果。左列是验证集的查询,右列是训练集中检索到的 10 个最接近的实例。上半部分展示了最好的表现。下半部分展示了最差的表现。

论文:Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

论文地址:https://arxiv.org/abs/1805.01978

开源代码:http://github. com/zhirongw/lemniscate.pytorch

摘要:在标注数据集上训练过的神经网络分类器无须人为干预就可以在各个类别间捕捉明显的视觉相似性。我们研究了这一行为是否可以扩展到传统的监督学习领域之外:我们是否可以仅通过获取可区分单独实例的特征来学习一个可以很好捕捉实例间而非类间明显相似性的特征表示?我们将该思路看做实例级的非参数化分类问题,并使用噪声对比估计来解决大量实例类带来的计算挑战。我们的实验结果表明,在无监督学习条件下,我们的算法性能远超 ImageNet 分类问题上最先进的算法。若有更多的训练数据和更好的网络架构,我们的算法会持续提高测试结果。通过微调学习到的特征,我们进一步获得了半监督学习和物体检测任务的有竞争力的结果。我们的非参数化模型非常紧凑:每张图片有 128 个特征,我们的方法存储一百万张图像仅需 600MB,从而在运行时实现快速最近邻检索。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-05-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法工程师

深度学习入门

引言 近几年来人工智能越来越火,大家都已经知道了AlphaGo的威力,然而在其背后,从技术层面来说,深度学习功不可没。那么深度学习到底是什么,其...

2977
来自专栏AI科技大本营的专栏

什么是迁移学习?它都用在深度学习的哪些场景上?这篇文章替你讲清楚了

翻译 | 刘畅 迁移学习是机器学习方法之一,它可以把为一个任务开发的模型重新用在另一个不同的任务中,并作为另一个任务模型的起点。 这在深度学习中是一种常见的方法...

35910
来自专栏专知

迁移学习在深度学习中的应用

▌简介 ---- 迁移学习是一种机器学习方法,其中为一个任务开发的模型可以在另一个任务中重用。 迁移学习是深度学习中的一种流行方法,其中预训练(pre-trai...

2995
来自专栏机器之心

解读 | 谷歌像素递归超分辨率研究:怎么消灭低分辨率图像马赛克?

机器之心原创 作者:Angulia 参与:王灏、hustcxy、吴攀 最近,谷歌发布了一种把低分辨率图像复原为高分辨率图像的方法,参见机器之心文章《学界 | ...

4139
来自专栏企鹅号快讯

从图像到知识:深度神经网络实现图像理解的原理解析

摘要:本文将详细解析深度神经网络识别图形图像的基本原理。 - 针对卷积神经网络,本文将详细探讨网络中每一层在图像识别中的原理和作用,例如卷积层(convolut...

3419
来自专栏AI科技大本营的专栏

CNN可视化最新研究方法进展(附结构、算法)

【AI科技大本营导读】深度学习一直被看做是一个难以解释的“黑匣子”。一方面在于其缺乏数学上的优雅,缺乏基础理论的支撑,另一方面在工程上缺乏解释性,其潜在的安全隐...

1914
来自专栏IT派

机器学习各类算法比较

导语:机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常...

43212
来自专栏华章科技

机器学习算法比较

机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始...

1213
来自专栏机器学习养成记

AdaBoost算法(R语言)

Boost算法是根据Valiant提出的PAC学习模型衍生得到,是一种可以自适应的改变训练样本的分布,从而使得基分类器聚焦在特殊样本的迭代方法。从基本的Boos...

39811

用强化学习学习优化

自从去年我们发表论文“ 学习优化 ”以来,优化器学习领域受到越来越多的关注。在这篇文章中,我们介绍这一行的工作,分享我们对这个领域的机遇和挑战的看法。

3658

扫码关注云+社区

领取腾讯云代金券