【LeCun & Bengio】NIPS 2015 深度学习专题论坛实录(35PPT)

Yann LeCun:纽约大学终身教授,Facebook人工智能实验室负责人。

Yoshua Bengio:加拿大蒙特利尔大学教授,深度学习大神。

“Deep learning is not a completely generalsolution to everything”

“深度学习不是一种能够解决一切问题的通用方法。”

“There is no magic.

“这个世界上没有魔法。”

突破 Breakthrough

深度学习是基于对多层表征/ 抽象进行学习的机器学习算法

从机器学习到AI,需要4个元素:

  • 大量数据(Lots ofdata)
  • 非常灵活的模型(Veryflexible models)
  • 足够的计算力(Enoughcomputing power)
  • 足以打败维度诅咒的先验条件(Powerful priors that can defeat curse of dimensionality)*是传统的核方法(kernelmethods)所缺乏的

在深度学习中,除了平滑性之外还有两种其它的先验条件可以对此有所帮助:

  • 分布式表征 / 嵌入映射(Distributedrepresentations / embeddings),也就是特征学习
  • 深模型(Deep models)

分布式表征的指数级优势

非分布式:功能(function)的复杂度随着特征的增加会有指数级的增长。如果你想象一下识别模型,就会发现激活单元(activation units)都是有意义的。这暗示了这些神经网络发现了有意义的特征,并且这些特征在学习上是互相独立的。

另一个观点是,深度学习表示的是自动化的特征探索(automated feature discovery)。人们以为一个单独的神经网络就能表征一切,但实际上有许多功能(function)需要指数级增长的单元数量。

反向传播 Backpropagation

由系统找出来如何梯度计算系统中的所有参数的方法。修正线性单元(Rectified linear units,RELU)互相之间区分度并不非常高,但足够相近(close enough to work)。用随机梯度下降法(stochastic gradient descent)进行训练。对小批量的样本(迷你批量,minibatch)计算梯度均值。

卷积神经网络Convolutional neural networks

当数据中的本地变量是高相关的,而有用的特征随处都有可能被找到时,应该使用具有平移不变性(shift invariance)的卷积神经网络。卷积神经网络的复制(replicate)是相当容易的。

递归神经网络Recurrent neural networks

应用于学习动态的系统。可以表征完全连接的有向生成模型(fully connected directed generative model):每一个变量都是被它之前的所有变量所预测得出的。

雅可比矩阵(jacobians)的奇异值(singular value)会让梯度爆炸式增长。为了获得稳定的学习,梯度的奇异值需要小于1。

梯度模截取(Gradient Norm Clipping):如果梯度模在阈值以上,那么将它降低到阈值水平。

LSTM是一种特殊结构,可以用于多重时间尺度,处理长时依赖(long-term dependencies)的问题。正向或是反向地创建信息拷贝的路径。

反向传播实践 Backprop in Practice

使用反向传播时,需要将输入数据正态化以“避免病态问题(ill conditioning)”。

大型神经网络会收敛到本地最小值(local minima)。本地最小值有很多,但大部分是差不多的(凸性(convexity)是不必要的):(1)大部分本地最小值都接近整体的误差最小值(global minimum error);(2)训练网络的误差会以很快的速度集中到一个值附近;(3)Yoshua和Lecun的团队在之前一些年里有一些结果证明了这一点。

随机神经元作为正则化矩阵 Stochastic neurons as a regularizer

流失法(dropout)可以被想像成正则化(regularization)的过程 ——

“Brutal, murderous, genocidalregularization.”

“一种野蛮、凶狠、斩尽杀绝式的正则化。”

批量正态化:对迷你批量数据的激活进行标准化处理(standardize)。

超参数(hyperparameters)随机取样,常见方法是人工加上网格搜索(grid search)。而随机搜索比较简单高效,搜索超参数的时候应该使用随机搜索。

应用

1.视觉

Facebook上每天有7亿张照片的数据上传,每张照片都会流入两个卷积神经网络中——物体识别网络和脸部识别网络。所有硬件设备公司都在调整芯片以适应卷积神经网络。

在2D图像上的应用:场景解析/ 标记(scene parsing / labelling),比如在图片中的建筑上标上“建筑”。

通过学习和不变映射(invariant mapping)降维。

2.语音识别

深度学习大幅提高了语音识别技术。端对端训练。

带有搜索的端对端训练:神经网络+HMMs

3.自然语言表征

"Language is one of most interesting, from deep learning point of view."

“从深度学习的角度来看,语言是最有趣的方向之一”

起源于80年代 geoff hinton的想法。神经网络第一层将符号对应到向量(word vector(词向量),word embedding)上。然后输出层覆盖了所有词汇。(P76)神经词向量(Neural word embeddings):形象化方向(visualisation directions)=习得属性(learned attributes)。

Mikolov等人的ICLR可以玩游戏。词向量(word2vec)的算法。例如国王-王后=男人-女人(king-queen = man-woman)、巴黎-法国+意大利=罗马(paris - france + italy = rome)。这意味着在不同语义属性下的向量空间是有方向的。

为了让机器翻译,找到适用于所有语言的中间表达形式接着将其对应到不同的表达中。

人们如何从很少的例子中完成概括 How do humans generalise from very few examples

从以往所学中迁移知识:表征(representations)和解释因子(explanatory factors)。需要对表征进行学习。先验经验:一种共享的潜在解释因子,特别是在p(x)与p(y|x)之间进行解释。

非监督和迁移学习挑战:在数据上先做非监督学习接着做新任务的监督学习。

多任务学习:共享网络的较低层(潜在因子在各种任务中是普遍的)接着有更多特定网络。能够概括得很快。

谷歌图像搜索:联合嵌入(joint embedding),在多模块之间共享表达。

非监督式表征学习

潜在益处:利用海量的未标记数据(unlabelled data);回答对于观测变量的新问题;正则化(Regularizer)—迁移学习—模块自适应(domain adaptation);更容易优化;联合(结构)输出(Joint (structured) outputs)

为什么潜在因子(latent factors)不属于非监督表达学习?:因为因果关系。依据X和Y之间因果关系的方向,你将会得到一个不错的结果或者陷入麻烦中。例子:考虑混合三个高斯函数——仅仅通过观察X的密度揭示了原因y(集群ID(cluster ID))。

不变特征不属于理清的潜在因子:学着理清因子,例如将所有的解释因子保持在表达中。很好地理顺 ->避免维度诅咒。

非监督神经网络:波尔兹曼机-能量指数的归一化。为了从这些中抽样,不得不用迭代抽样方案:随机松弛算法、MCMC。预测性稀疏分解(Predictive Sparse Decomposition,PSD)。

自动编码器的概率解释:流形学习和自动编码器的概率解释。有了训练自动编码器的特定方式,你可以获得数据分布。根据输入对数密度函数的微分收敛。从损坏的数据到流形来学习向量场。如果你做编码-解码-编码-解码马尔可夫链(encode-decode-encode-decode markov chain)然后静态分布是分布的估计。

最近:helpholtz机器和动态自动编码器(VAEs)。同时训练编码器和解码器并在所有层级中加入噪音来抵抗编码器输出和之前输出之间的错配。(P116)

评论 Final Remarks

未解决的问题:问题的答案为我们所处理的机器学习问题带来飞跃:展示视频片段并绘制下一个框架,神经网络运行的不好-世界是无法预测的,不能只运用观察。深度学习意味着我们应该概括出更高层面的抽象。你如何评价非监督学习?自然语言理解和推理?弥补生物学上的空白。深度强化学习。

干货下载

1.【华创证券】机械设备:机器人大趋势

2.【东吴证券】大国崛起:中国智造值得中长期布局

3.【广发证券】清洁机器人:旧时王谢堂前燕,飞入寻常百姓家

4.【民生证券】人工智能 + 适合的应用场景

5.【荐书】The Master Algorithm

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2015-12-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏拭心的安卓进阶之路

Java 集合深入理解(6):AbstractList

今天心情比天蓝,来学学 AbstractList 吧! ? 什么是 AbstractList ? AbstractList 继承自 AbstractCollec...

19210
来自专栏desperate633

LeetCode Invert Binary Tree题目分析

Invert a binary tree. 4 / \ 2 7 / \ / \1 3 6 9 to4 / \ 7 2 / \ / \9 6 3 1 Tri...

871
来自专栏聊聊技术

原 数据结构-二叉搜索树(Binary S

2887
来自专栏聊聊技术

原 初学图论-Kahn拓扑排序算法(Kah

2888
来自专栏刘君君

JDK8的HashMap源码学习笔记

3068
来自专栏开发与安全

算法:AOV网(Activity on Vextex Network)与拓扑排序

在一个表示工程的有向图中,用顶点表示活动,用弧表示活动之间的优先关系,这样的有向图为顶点表示活动的网,我们称之为AOV网(Activity on Vextex ...

2607
来自专栏xingoo, 一个梦想做发明家的程序员

Spark踩坑——java.lang.AbstractMethodError

百度了一下说是版本不一致导致的。于是重新检查各个jar包,发现spark-sql-kafka的版本是2.2,而spark的版本是2.3,修改spark-sql-...

1210
来自专栏项勇

笔记68 | 切换fragmengt的replace和add方法笔记

1444
来自专栏后端之路

LinkedList源码解读

List中除了ArrayList我们最常用的就是LinkedList了。 LInkedList与ArrayList的最大区别在于元素的插入效率和随机访问效率 ...

19710
来自专栏学海无涯

Android开发之奇怪的Fragment

说起Android中的Fragment,在使用的时候稍加注意,就会发现存在以下两种: v4包中的兼容Fragment,android.support.v4.ap...

3165

扫码关注云+社区