世界顶级大神综述深度学习 | Nature | 重温经典必读 | 论文精萃 |13th

用户7623498

发布于 2020-08-04 16:44:25

5.3K0

文章被收录于专栏：决策智能与机器学习决策智能与机器学习

论文基本信息

文章名称：Deep learning
作者：Yann LeCun, Yoshua Bengio& Geoffrey Hinton
全文下载：请在公众号回复：20180806

作者简介

图丨Yann LeCun、Geoffrey Hinton、Yoshua Bengio和吴恩达

大神的个人状态

Yann LeCun： Facebook公司AI研究部门首席科学家；纽约大学数据科学中心的创始人；纽约大学计算机科学，神经科学，电气和计算机工程的白银教授（Silver Professor）。
Yoshua Bengio：加拿大蒙特利尔大学计算机科学与应用学院的全职教授，蒙特利尔学习算法研究所（MILA）的负责人；CIFAR机器和大脑项目联合负责人；统计学习算法加拿大研究主席。
Geoffrey Hinton：由于妻子病重，目前已停止工作。

研究方向

Yann LeCun：机器学习、计算机视觉、机器人、计算神经科学。同时对数据压缩、数字图书馆、计算物理和所有机器学习的应用（视觉、语音、语言、文档理解、数据挖掘、生物信息）感兴趣。
Yoshua Bengio：致力于研究产生智能的学习原理。他带领了一个庞大的研究生和博士后团队。他的研究工作被广泛引用（截至2017年9月谷歌学术统计超过8万次引用，H指数101）
Geoffrey Hinton：深度学习、神经网络等。

大神个人网站

Yann LeCun：http://yann.lecun.com/
Yoshua Bengio：http://www.iro.umontreal.ca/~bengioy/yoshua_en/index.html
Geoffrey Hinton：http://www.cs.toronto.edu/~hinton/

特别说明

在全世界范围内，Yann LeCun、Geoffrey Hinton和Yoshua Bengio 三人被公认是深度学习领域“三驾马车”。对于致力于发展人工智能的企业来说，他们三人的地位相当于三国时代的“卧龙凤雏”——得一便可得天下。

为纪念人工智能提出60周年，三驾马车首次合作了这篇综述文章“Deep Learning”。该文章是深度学习三驾马车共同撰写的深度学习综述性文章，发表于Nature。作为该领域的开创性先驱和领头人，对截至2015年的深度学习的发展、状态及未来做了系统性梳理和总结。

在深度学习领域，该文章无论是站的高度还是分析的深度，均为世界顶级的代表作，正本清源，开宗明义，不可不读。

摘要

深度学习可以使具有多个处理层的计算模型实现对多层次抽取的数据表征的学习。这些方法显著提升了多个领域的极限性能，包括语音识别、视觉目标识别、目标检测和许多其它领域，例如药物发现和基因领域等。深度学习能够发现大数据中的复杂结构，利用反向传播算指导机器如何从前一层网络计算表征，从而改变每一层的内部参数。深度卷积网络在图像、视频、语音和音频等方面的处理能力上带来了突破性进展。循环神经网络在序列数据，如文本和语音方面的处理上，已经表现亮眼。

文章结构

精华内容

1.深度学习的核心特色与基本定义

深度学习是一种表征学习（Representation learning）方法。把原始数据通过一些简单的可是非线性的多层次表征模型转变成为更高层次的，更加抽象的表达。通过足够多这样的转换组合，很复杂的函数也可以被学习。

深度学习的核心特色是这些多层结构中的特征不是工程师手工设计的，而是通过一个通用目的的学习过程从数据中学习的。

2.深度学习在监督学习中应用的主要过程及优势

描述了深度学习实现有监督类学习的过程，比如建立一个系统对图像进行分类：

1）收集大量数据集，标注图像中的目标；

2）构建深度学习网络，以向量的形式表示学习到的内容；

3）计算一个目标函数，衡量类别的输出分数和期望分数之间的误差（或距离）；

4）通过自动修改内部的可调节的参数（通常被称为权值），优化网络性能；

5）大部分从业者都使用一种叫做随机梯度下降（SGD）的算法进行权值调节，相比于其他优化技术，SGD的速度让人惊奇;

6）训练结束后，再通过不同于优化训练的数据样本测试系统的泛化能力，即对于未训练过的新样本的识别能力。

图a：多层神经网络对输入空间整合，使得数据线性可分；
图b：链式法则推导过程，展示了x和y的两个微笑变化是如何组合在一起的
图c：具有两个隐层和一个输出层的神经网络的前向传播过程
图d：对比输出与正确答案的误差之后，神经网络的反向传播过程

深度网络与传统机器学习的重要区别：传统机器学习做分类的时候需要大量的先验经验和领域知识对分类特征进行设计，但是又很难保证特征的泛化能力。而深度学习可以通过网络来拟合特征可以避免这种问题，因为深度学习通过多层结构从原始数据中得到的特征可以同时提高特征的区分选择性和特征不变形，而且可微小细节的特征进行区分，如从白色的狼中区分出萨摩耶犬，同时忽略背景、亮度、姿势等特征。

3.反向传播训练方法：从被忽视到火爆

反向传播算法的核心算法是用链式求导法则，即目标函数对于输出层的导数（或梯度），通过该层向前一层求导实现，如此递延一直传递到第一层（输入层）。最后将特征传递给一个非线性激活函数，可以得到分类的结果。当前最流行的非线性激活函数是ReLU，比起之前流行的tanh和sigmoid激活函数，ReLU的学习速度更快，可以让深度网络直接进行学习，而不需要做预训练（pre-train）。

反向传播方法其实在20世纪80年代就易用被用到多层网络的训练之中，即随机梯度下降算法。但是直到2009年前后才被重新广泛使用，这中间主要有两个问题的突破。

一个是人们当时普遍认为反向传播算法使用的梯度下降会使整个优化陷入局部极小困境，但实践中发现，系统并没有出现局部极小问题，而是总能够得到差不多的解，尤其是在数据量很大的时候。
二是GPU的出现，使得训练过程得到了10倍或20倍的加速。

4.卷积神经网络的4个关键想法

局部连接、权值共享、池化以及多网络层的使用

局部连接：每一层图像的局部块，被一个叫做卷积的滤波器权值映射到特征图中；
权值共享：每一层的特征图使用的过滤器是相同的，不同层使用不同的滤波器；
池化：卷积层的作用是探测上一层特征的局部连接，然而池化层的作用是在语义上把相似的特征合并起来，池化操作让这些特征对各种变化具有更好的鲁棒性；
多层网络的使用：通过多层网络实现对低级特征的组合，转换为高级的特征。

卷积网络中的卷积和池化层灵感来源于视觉神经科学中的简单细胞和复杂细胞。这种细胞就是多层结构的视觉回路，比如猴子的视觉神经中160个神经元变化与卷积网络相似。卷积神经网络有神经认知的根源，他们的架构有点相似。

近年来，卷积神经网络被广泛应用于检测、分割、物体识别以及图像的各个领域。其中人脸识别是最重要的应用。值得一提的是，卷积神经网络可以在像素级别对图像进行识别。

5.分布式特征表示与语言处理

对比传统语言处理方法的2个巨大（指数级）优势

深度学习使用分布式特征表示（distributed representations），与传统学习算法相比具有两个极大的优势：

1）分布式特征表示能够很好的泛化能力，以适应新学习到的特征值组合；

2）深度网络的组合多层进行表示，可以更加容易的预测目标输出，这是第二个巨大的优势，即指数级的深度。

这种特性的一个经典场景就是语言处理，比如将本地文本的内容作为输入，训练神经网络来预测句子的下一个单词。传统方法是基于逻辑启发的，用符号表示实体，再用逻辑进行推理，这就需要对推理规则进行大量的手工设计，工作量巨大。而深度学习是基于神经网络的认知，可以利用大量的活动载体、权值矩阵和标量的非线性和，建立语义的向量空间，实现简单容易、具有“直觉”推理能力的语言处理效果。

6.循环神经网络

适用于序列数据处理的方法

涉及序列输入的任务，比如语音和语言，利用RNNs能获得更好的效果，例如用于语言翻译。RNNs一旦展开，可以看作一个所有层共享同样权值的深度前馈神经网络。虽然目的是学习长期的依赖性，但理论和经验的证据表明很难学习并长期保存信息。

为了解决这个问题，一种采用了特殊隐式单元的LSTM（long-short-term memory networks）被提出，其自然行为便是长期保存输入。LSTM增加了一种称作记忆细胞的特殊单元，类似累加器和门控神经元：这个神经元在下一个时间步长中通过一个权值连接到自身，拷贝自身状态的真实值和累积的外部信号，这种自连接是由另一个单元（遗忘门）学习并决定何时清除记忆内容的乘法门控制的。

LSTM网络随后被证明传统的RNNs更加有效，尤其当每一个时间步长内有若干层时，整个语音识别系统能够完全一致的将声学转录为字符序列。目前LSTM网络或者相关的门控单元同样用于编码和编码网络，并且在机器翻译中表现良好。

7.深度学习的未来展望

无监督学习、增强学习、自然语言理解、复杂推理与表示学习结合

本文中主要讨论了已取得巨大成功的有监督学习，但是作者们更加期待的方向在以下几个方面：

1）无监督学习

2）CNN+RNN+增强学习=主动视觉学习系统

3）自然语言理解将被深度学习深刻的改变，深度学习将更好地理解整个文档

4）AI未来的巨大进步将来自那些结合了复杂推理和表示学习的系统

8.具有重要意义的引用文献