雷锋网注:Geoffrey Everest Hinton(杰弗里·埃弗里斯特·辛顿 )是一位英国出生的计算机学家和心理学家,以其在神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者,目前任职于多伦多大学与Google。作为人工智能领域的三位奠基人之一,早在30年前,辛顿就已经在深度学习领域留下了自己的烙印。然而,直到计算机的性能达到深度学习的要求,辛顿才开始在学术界以外得到自己应得的广泛认可,本文是他对于深度学习介绍的演讲PPT。
深度学习
Geoffrey Hinton
多伦多大学&Google
机器学习任务的频谱
典型的统计学方法
人工智能(AI)
深度学习简要发展史
—该算法不能有效利用多数隐藏层(除了其在“时延”和卷积网的应用)。 —该算法不能在递归网络中发挥有效作用。
如何学习多层特征(~1985)
运用反向传播错误信号以获得用于学习的衍生工具:
首先输入输入信息向量,通过隐藏层,最终得到输出结果,对比输出结果与正确答案得到错误信号。
随机梯度下降
—这将对所有训练数据的梯度矢量进行随机评估。 —若权重值完全出现错误,即便获得一个耗费多,精确地估计值也是无意义的。
—与其他更好地方法相比,这种原始的优化方法能够在大数据集中发挥更好的作用。
反向传播算法到底是哪里出错了?——20世纪90年代的观点
— 几乎所有的数据都是未经标记的。
— 在存在众多隐藏层的网络中,该算法学习速度非常慢。
— 该算法通常能够得到极好的运用,但是从来没有极好的理论。
运用无监督学习方式,克服反向传播算法的局限性
— 调整权重,保证一个生成模型生成感官输入信息的最大可能性。 — 学习图像,而非标记过的图像。 如果你想要从事计算机视觉领域的研究,首选学习计算机制图法。
随机二进制单位(一种奇数选择方法)
受限玻尔兹曼机
—只有一层随机二进制隐藏单元。 —隐藏层之间无连接。
— 当存在一个既定的数据矢量,我们能够快速从后验分布中获取一个无偏差样本。
受限玻尔兹曼机最大可能性学习算法图
由可视单元的一个训练矢量V开头。 在更新所有平行隐藏单元与更新所有平行的可视单元之间转换。
快速学习受限玻尔兹曼机的方法
由可视单元的一个训练矢量开头 更新所有平行的隐藏单元 更新所有平行的可视单元,以实现重构 再次更新隐藏单元
旁白
这是受限玻尔兹曼机的首次重大应用。
训练深度网络(受限玻尔兹曼机饱受欢迎的主要原因在于的到盖茨比基金的支持)
如此便生成一个多层生成模型。
这一证明过程是非常复杂的(但是对于学术界同仁之间相互尊重极为重要)。
精细调整,以实现区分这一目的
因为未经标记数据而发现好的特征,我们要求使用更少的标记。
由于在预训练过程中,一次仅训练一层,并且是从可感知的特征进行精细调整的,学习速度变得越来越快。
为预训练深层神经网构建声学模型
通过较短时间的前期处理,现在我们在这一块儿能够做的更好。
接下来会发生什么
图像网的ILSVRC-2012竞争
早期阶段主要通过优化一些参数得到调整。
ILSVRC-2012竞争的错误率
针对Imagenet的神经网络
l 7个隐藏层(不包括最大池化层) l 早期的层级是卷积的 l 最后两层是全局相连的
Dropout用来防止这些层级过拟合
在测试集上的样本(以及神经网络猜测结果)
猎豹(豹 雪豹 埃及猫) 高速列车(小轿车 地铁 电车) 放大镜(剪刀、放大镜、煎锅、听诊器)
修正线性单元
y = max(0,x)
这种非线性使得深度网络更易训练,在处理真实值的时候也表现的更好。
Dropout:平均多个大型神经网络的有效方式
所有的架构权重相同
Dropout作为一种模型平均形式
这比试着将权重保持在较少状态更能实现好的正则化
在测试的时候我们做些什么?
1986年提出的方向传播算法哪里错了?
关于它为什么失败,我们得出的结论都错了。真正的原因是:
1. 我们的标记数据集太小了。(几千倍的差异) 2. 我们的运算能力太慢了。(百万倍的差异) 3. 我们进行权重初始化的方式错了。 4. 我们使用了错误的非线性类别。
几年前,Jeff Dean认为如果计算能力足够的话,神经网络也许能够做到一些非常了不起的事情。
他建立许多架构让一些大型神经网络在Google的数据中心核心区块上进行训练。
卷积神经网络(部分复杂细节已略去)
有关卷积网络最好的类型可以去查看Hochreiter和Schmidhuber于1997年发布文章的细节。
卷积神经网络
卷积神经网络十分强大,因为它们结合了两种特性。
l 分布式隐层允许它们有效存储之前的信息 l 非线性动态允许它们以复杂的方式更新隐层 l 深度越深,性能更好
机器翻译的一种全新方式(Suskever, Vinyals和Le,2014)
它最终的隐层表示的就是语句所要表达的含义。
针对翻译分布的一个解码器RNN
在训练期间,我们只需要输入“正确”的单词。
编码器和解码器网络是如何训练的
该系统已实现在该数据上的最佳水准 该系统大约需要一年来开发
如果我们使用更多的数据,并且同时对多种语言共同进行训练编码器和解码器的话,它的表现会好的多
欧洲的议会给出了25种方式,我们可以通过所有的25中解码器进行反向传播。
结合视觉和语言(Vinyals等近期工作的简单介绍)
使用一个拥有20万张图片(每张图片有几个注释)的数据集 不再重复训练卷积神经网络
一群人在一个户外市场购物
(人们蜷缩围绕着一家开放市场)
一个抱着填充动物玩具的孩子特写
(一个小女孩睡在沙发上,抱着一个玩具熊)
文本处理的意义
这将捕获自然推理过程 它应该能让我们理解文本要表达的含义
经典AI的意义
他们认为没有其他的可能性
他们认为没有其他的可能性
唯一的符号是输入和输出
处理像素阵列绝对不是通过操作内部像素来实现的
深度学习是从哪里来的?
公司擅长于开发新的思想 在长期开发中,好的新思想是真正的瓶颈 因此给予大学基础结构来发展真正的思想