引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名(理解/泛化/迁移篇)

编者按:我们通常都会学习前辈或大牛的经典作品,而引用次数自然也成为了论文的一个重要标杆。在 GitHub 上,大神 @Terryum 整理了一份精心编写的论文推荐列表,其中包含了在深度学习领域中引用次数最多的前100篇论文(自2012年起)。囿于篇幅限制,AI 研习社整理编译了理解/泛化/迁移领域的七篇论文,并增加了论文的概要,方便读者快速了解。

有一些深度学习论文,无论它们属于哪个应用领域,都值得仔细研习。文章在精不在多,AI 研习社提供的这些文章,都被认为是值得一读的优秀论文。

█ 背景

除此列表之外,还有一些优秀的深度学习论文推荐列表,比如《Deep Vision》,《Awesome Recurrent neural networks》和《Deep Learning Papers Reading Roadmap》。其中《Deep Learning Papers Reading Roadmap》是一个适合深度学习初学者的论文推荐列表,包含了很多重要的论文,被很多深度学习的研究者所喜爱,但是想要读完其中包含的所有论文还是有一定难度的。正如我在介绍中提到的一样,任何应用领域的开创性工作都会让我们受益匪浅。因此,我将介绍前一百篇深度学习论文,作为概述深度学习研究的起点。

█ 评选标准

  1. 入选论文的发表年份限于2012年至2016年间
  2. 每当一篇新的论文入选此列表(通常从《More Papers from 2016》选择),那么就会有另一篇论文被淘汰,确保始终只提供前100篇论文。(选择淘汰论文的工作与选择加入的工作同样重要)
  3. 有一些没有入选的重要论文,将会在《More than Top 100》中陈列
  4. 对于2012年前或者近六个月发表的论文,请参考《New Papers and Old papers》

(引用标准)

按论文发表的时间:

<6 个月: 新论文(经讨论决定) 2016年 : 引用次数大于60次或者入选了《More Papers from 2016》 2015年 : 引用次数大于200次 2014年 : 引用次数大于400次 2013年 : 引用次数大于600次 2012年 : 引用次数大于800次 ~2012年 : 旧论文(经讨论决定)

注意:我们优先选择学术领域而不是应用领域的开创性论文,入选的论文影响力相对较大,也更加适用于其他研究匮乏的学术领域,因此有些满足评选标准的论文没有被选中,而有些选中了。

论文集目前包括以下几个分类:理解/泛化/迁移、最优化/训练技巧、无监督学习/生成模型等十个子类,本篇文章只简单对理解/泛化/迁移的论文进行介绍。

█ 理解/ 泛化/ 迁移

对于大型的机器学习任务,通常在训练阶段和应用阶段会使用相似的模型。为了使特征提取更容易,我们愿意训练一个相对复杂的模型,甚至是训练几个模型的集合。一旦这样的集合模型训练完成,使用一种叫做“压缩”的技术把复杂模型的知识转化到一个较小的模型中以便应用模型使用。Caruana曾经提出过一种将一个大的模型集合转化为小的单一模型的方法,来自谷歌的Geoffrey Hinton, Oriol Vinyals和Jeff Dean三位技术专家合著了《Distilling the knowledge in a neural network 》,他们改善了Caruana的方法,应用了一种不同的压缩方法并在MNIST数据集上取得了惊人的成绩。论文表明,把集合模型中的知识 “压缩” 到单一模型中可以显著地改善一种频繁使用的商业系统的声学模型。

[1]Distilling the knowledge in a neural network (2015), G. Hinton et al. [pdf]

深度神经网络 (DNN) 在分类图片物体的问题上达到了近乎人类的程度,很多人会有疑问,计算机视觉和人类视觉究竟有何不同? Anh Nguyen, Jason Yosinski和 Jeff Clune在《Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images 》一文中提出了DNN和人类视觉的差异,文章认为,在面对人类完全不能辨认的图片时,DNN很容易被糊弄。文中通过进化算法或者梯度下降方法来处理图片,实验显示,即使对于人类无法辨别的图片,DNN依然能够呈现很高的置信度。其中,处理过后的MNIST数据集,DNN的辨别置信度达到了99%,而辨别ImageNet数据集的置信度则相对较低些。

[2]Deep neural networks are easily fooled: High confidence predictions for unrecognizable images (2015), A. Nguyen et al. [pdf]

很多深度神经网络在分类自然图片时都表现出了同一种奇怪的现象,它们在第一层网络层学习的特征与Gabor 滤波器和Color blobs很像,无论选择怎样的数据集和损失函数,似乎这样的第一层特征都会出现,具有普遍性。另外,我们知道训练的网络最后一层的特征与选择的数据集和训练任务紧密相关,具有特殊性。网络层的特征在训练过程中会由一般转变为特殊,但是目前这种转变过程还没有研究的很透彻。由Jason Yosinski, Jeff Clune, Yoshua Bengio和Hod Lipson合著的《How transferable are features in deep neural networks? 》通过实验量化了深度卷积神经网络每一层中的神经元的普遍性和特殊性。实验表明,有两个因素会造成迁移特征的性能下降:高层特征本身的特殊性;由于在协同工作的相邻网络层之间进行分割造成的优化困难。另外,实验观察了这两个因素在不同迁移方式下的表现,量化了因训练任务不同而改变的迁移差异性变化,结果表明,即使是从完全不同的训练任务迁移过来的特征,表现的性能都要优于随机设置权重的网络。另外,实验表明,即使是进行微调参,使用迁移的特征还是可以提高泛化性能,这可以作为提高深度神经网络性能的有效手段。

[3]How transferable are features in deep neural networks? (2014), J. Yosinski et al. [pdf]

已有研究表明从卷积神经网络中提取出的通用描述符是非常有用的,从CNN网络中学习到的通用特征,可以成功应用于其他的识别任务。《CNN Features off-the-shelf: an Astounding Baseline for Recognition》再次证明了这一点,论文作者Ali Sharif Razavian等进行了一系列实验,使用已有的OverFeat网络加上简单的分类器SVM,来处理不同种类的识别任务,包括物体对象识别,场景识别,精细分类,属性检测,图像检索,OverFeat+SVM在这些任务上都表现出了非常优异的性能。结果表明,卷积网络获得的特征可作为大多数视觉识别任务的首选。

[4]CNN features off-the-Shelf: An astounding baseline for recognition (2014), A. Razavian et al. [pdf]

CNN模型的训练过程,相当于在拥有大量标签过的图片样本的情况下,估算百万个参数的值。CNN的这一性质使得它无法在训练数据有限的情况下使用,由Maxime Oquab, Leon Bottou,Ivan Laptev,Josef Sivic等人合著的《Learning and transferring mid-Level image representations using convolutional neural networks 》展现了使用大规模标签数据集和CNN模型训练过的图片表征,可以有效地应用到其他的视觉识别任务上。论文设计了一种方法,在ImageNet数据集训练过的网络层可以重用,用于计算PASCAL数据集的中层图片表征。

[5]Learning and transferring mid-Level image representations using convolutional neural networks (2014), M. Oquab et al. [pdf]

来自纽约大学的Matthew D. Zeiler和Rob Fergus合著了《Visualizing and Understanding Convolutional Networks》,这篇论文解释了为什么很多CNN模型在ImageNet上表现优异并介绍了如何提升这些模型的性能。论文引入了一种新的可视化技术展示中间层特征函数和分类器的操作。可视化使得我们可以找到这些在ImageNet分类基准中比Krizhevsky模型表现更好的模型结构。

[6]Visualizing and understanding convolutional networks (2014), M. Zeiler and R. Fergus [pdf]

对于一个大的, 固定的物体的识别任务,在全监督学习中训练过的深度卷积网络的激励层提取出来的特征,是否能够在新的通用任务中再利用?《DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition》一文讨论了这个问题。论文中调查并可视化了不同任务的深度卷积特征的语义聚类,比较了不同网络层次的效果来定义固定特征。报告的新成果明显优异于目前在视觉任务挑战中表现的最优水平。

[7]Decaf: A deep convolutional activation feature for generic visual recognition (2014), J. Donahue et al. [pdf]

本文介绍了列表中属于理解/泛化/迁移领域的七篇引用次数最多的论文,对于其他类别的论文,请参考原文链接:

https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-03-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【陆勤践行】奇异值分解 - 最清晰易懂的svd 科普

在这篇文章中,我们以几何的视角去观察矩阵奇异值分解的过程,并且列举一些奇异值分解的应用。 介绍 矩阵奇异值分解是本科数学课程中的必学部分,但往往被大家忽略。这个...

1978
来自专栏PaddlePaddle

卷积神经网络的经典结构(二)

正文部分系《解析卷积神经网络——深度学习实践手册》基础理论篇部分,本次将详细介绍卷积神经网络中经典网络模型案例分析,包括Alex-Net、VGG-Nets、Ne...

1292
来自专栏数据派THU

机器学习和深度学习引用量最高的20篇论文(2014-2017)

原文:Kdnuggets 作者:Thuy T. Pham 来源及编译:机器之心 本文长度为3400字,建议阅读5分钟 本文列出自 2014 年以来机器学习和深度...

2518
来自专栏机器之心

学界 | 哥伦比亚大学与Adobe提出新方法,可将随机梯度下降用作近似贝叶斯推理

选自arXiv 机器之心编译 参与:吴攀 伦比亚大学和 Adobe 的三位研究者近日在 arXiv 上的一篇论文《用作近似贝叶斯推理的随机梯度下降(Stoch...

3228
来自专栏机器学习算法与Python学习

干货 | 请收下这份机器学习清单

机器学习的发展可以追溯到1959年,有着丰富的历史。这个领域也正在以前所未有的速度进化。在之前的一篇文章(https://unsupervisedmethods...

1280
来自专栏红色石头的机器学习之路

台湾大学林轩田机器学习技法课程学习笔记11 -- Gradient Boosted Decision Tree

上节课我们主要介绍了Random Forest算法模型。Random Forest就是通过bagging的方式将许多不同的decision tree组合起来。除...

2240
来自专栏Python数据科学

机器学习之神经网络基础

目前,深度学习(Deep Learning,简称DL)在算法领域可谓是大红大紫,现在不只是互联网、人工智能,生活中的各大领域都能反映出深度学习引领的巨大变革。要...

671
来自专栏CVer

[计算机视觉论文速递] ECCV 2018 专场7

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、for...

1662
来自专栏cs

Word2Vec,LDA 知识普及

Word2vec,Word2vec,是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相...

961
来自专栏机器之心

学界 | Bengio等人提出图注意网络架构GAT,可处理复杂结构图

3338

扫码关注云+社区

领取腾讯云代金券