【LeCun & Bengio】NIPS 2015 深度学习专题论坛实录(35PPT)

Yann LeCun:纽约大学终身教授,Facebook人工智能实验室负责人。

Yoshua Bengio:加拿大蒙特利尔大学教授,深度学习大神。

“Deep learning is not a completely generalsolution to everything”

“深度学习不是一种能够解决一切问题的通用方法。”

“There is no magic.

“这个世界上没有魔法。”

突破 Breakthrough

深度学习是基于对多层表征/ 抽象进行学习的机器学习算法

从机器学习到AI,需要4个元素:

  • 大量数据(Lots ofdata)
  • 非常灵活的模型(Veryflexible models)
  • 足够的计算力(Enoughcomputing power)
  • 足以打败维度诅咒的先验条件(Powerful priors that can defeat curse of dimensionality)*是传统的核方法(kernelmethods)所缺乏的

在深度学习中,除了平滑性之外还有两种其它的先验条件可以对此有所帮助:

  • 分布式表征 / 嵌入映射(Distributedrepresentations / embeddings),也就是特征学习
  • 深模型(Deep models)

分布式表征的指数级优势

非分布式:功能(function)的复杂度随着特征的增加会有指数级的增长。如果你想象一下识别模型,就会发现激活单元(activation units)都是有意义的。这暗示了这些神经网络发现了有意义的特征,并且这些特征在学习上是互相独立的。

另一个观点是,深度学习表示的是自动化的特征探索(automated feature discovery)。人们以为一个单独的神经网络就能表征一切,但实际上有许多功能(function)需要指数级增长的单元数量。

反向传播 Backpropagation

由系统找出来如何梯度计算系统中的所有参数的方法。修正线性单元(Rectified linear units,RELU)互相之间区分度并不非常高,但足够相近(close enough to work)。用随机梯度下降法(stochastic gradient descent)进行训练。对小批量的样本(迷你批量,minibatch)计算梯度均值。

卷积神经网络Convolutional neural networks

当数据中的本地变量是高相关的,而有用的特征随处都有可能被找到时,应该使用具有平移不变性(shift invariance)的卷积神经网络。卷积神经网络的复制(replicate)是相当容易的。

递归神经网络Recurrent neural networks

应用于学习动态的系统。可以表征完全连接的有向生成模型(fully connected directed generative model):每一个变量都是被它之前的所有变量所预测得出的。

雅可比矩阵(jacobians)的奇异值(singular value)会让梯度爆炸式增长。为了获得稳定的学习,梯度的奇异值需要小于1。

梯度模截取(Gradient Norm Clipping):如果梯度模在阈值以上,那么将它降低到阈值水平。

LSTM是一种特殊结构,可以用于多重时间尺度,处理长时依赖(long-term dependencies)的问题。正向或是反向地创建信息拷贝的路径。

反向传播实践 Backprop in Practice

使用反向传播时,需要将输入数据正态化以“避免病态问题(ill conditioning)”。

大型神经网络会收敛到本地最小值(local minima)。本地最小值有很多,但大部分是差不多的(凸性(convexity)是不必要的):(1)大部分本地最小值都接近整体的误差最小值(global minimum error);(2)训练网络的误差会以很快的速度集中到一个值附近;(3)Yoshua和Lecun的团队在之前一些年里有一些结果证明了这一点。

随机神经元作为正则化矩阵 Stochastic neurons as a regularizer

流失法(dropout)可以被想像成正则化(regularization)的过程 ——

“Brutal, murderous, genocidalregularization.”

“一种野蛮、凶狠、斩尽杀绝式的正则化。”

批量正态化:对迷你批量数据的激活进行标准化处理(standardize)。

超参数(hyperparameters)随机取样,常见方法是人工加上网格搜索(grid search)。而随机搜索比较简单高效,搜索超参数的时候应该使用随机搜索。

应用

1.视觉

Facebook上每天有7亿张照片的数据上传,每张照片都会流入两个卷积神经网络中——物体识别网络和脸部识别网络。所有硬件设备公司都在调整芯片以适应卷积神经网络。

在2D图像上的应用:场景解析/ 标记(scene parsing / labelling),比如在图片中的建筑上标上“建筑”。

通过学习和不变映射(invariant mapping)降维。

2.语音识别

深度学习大幅提高了语音识别技术。端对端训练。

带有搜索的端对端训练:神经网络+HMMs

3.自然语言表征

"Language is one of most interesting, from deep learning point of view."

“从深度学习的角度来看,语言是最有趣的方向之一”

起源于80年代 geoff hinton的想法。神经网络第一层将符号对应到向量(word vector(词向量),word embedding)上。然后输出层覆盖了所有词汇。(P76)神经词向量(Neural word embeddings):形象化方向(visualisation directions)=习得属性(learned attributes)。

Mikolov等人的ICLR可以玩游戏。词向量(word2vec)的算法。例如国王-王后=男人-女人(king-queen = man-woman)、巴黎-法国+意大利=罗马(paris - france + italy = rome)。这意味着在不同语义属性下的向量空间是有方向的。

为了让机器翻译,找到适用于所有语言的中间表达形式接着将其对应到不同的表达中。

人们如何从很少的例子中完成概括 How do humans generalise from very few examples

从以往所学中迁移知识:表征(representations)和解释因子(explanatory factors)。需要对表征进行学习。先验经验:一种共享的潜在解释因子,特别是在p(x)与p(y|x)之间进行解释。

非监督和迁移学习挑战:在数据上先做非监督学习接着做新任务的监督学习。

多任务学习:共享网络的较低层(潜在因子在各种任务中是普遍的)接着有更多特定网络。能够概括得很快。

谷歌图像搜索:联合嵌入(joint embedding),在多模块之间共享表达。

非监督式表征学习

潜在益处:利用海量的未标记数据(unlabelled data);回答对于观测变量的新问题;正则化(Regularizer)—迁移学习—模块自适应(domain adaptation);更容易优化;联合(结构)输出(Joint (structured) outputs)

为什么潜在因子(latent factors)不属于非监督表达学习?:因为因果关系。依据X和Y之间因果关系的方向,你将会得到一个不错的结果或者陷入麻烦中。例子:考虑混合三个高斯函数——仅仅通过观察X的密度揭示了原因y(集群ID(cluster ID))。

不变特征不属于理清的潜在因子:学着理清因子,例如将所有的解释因子保持在表达中。很好地理顺 ->避免维度诅咒。

非监督神经网络:波尔兹曼机-能量指数的归一化。为了从这些中抽样,不得不用迭代抽样方案:随机松弛算法、MCMC。预测性稀疏分解(Predictive Sparse Decomposition,PSD)。

自动编码器的概率解释:流形学习和自动编码器的概率解释。有了训练自动编码器的特定方式,你可以获得数据分布。根据输入对数密度函数的微分收敛。从损坏的数据到流形来学习向量场。如果你做编码-解码-编码-解码马尔可夫链(encode-decode-encode-decode markov chain)然后静态分布是分布的估计。

最近:helpholtz机器和动态自动编码器(VAEs)。同时训练编码器和解码器并在所有层级中加入噪音来抵抗编码器输出和之前输出之间的错配。(P116)

评论 Final Remarks

未解决的问题:问题的答案为我们所处理的机器学习问题带来飞跃:展示视频片段并绘制下一个框架,神经网络运行的不好-世界是无法预测的,不能只运用观察。深度学习意味着我们应该概括出更高层面的抽象。你如何评价非监督学习?自然语言理解和推理?弥补生物学上的空白。深度强化学习。

干货下载

1.【华创证券】机械设备:机器人大趋势

2.【东吴证券】大国崛起:中国智造值得中长期布局

3.【广发证券】清洁机器人:旧时王谢堂前燕,飞入寻常百姓家

4.【民生证券】人工智能 + 适合的应用场景

5.【荐书】The Master Algorithm

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2015-12-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

使用认知心理学解释深度神经网络:DeepMind新研究破解AI黑箱问题

选自DeepMind 机器之心编译 近日,DeepMind在其官方博客上发表了一篇题为《Interpreting Deep Neural Networks us...

3047
来自专栏腾讯技术工程官方号的专栏

CVPR 2018 | 腾讯AI Lab入选21篇论文详解

腾讯AI Lab共有21篇论文入选,位居国内企业前列,我们将在下文进行详解,欢迎交流与讨论。

1.9K18
来自专栏程序你好

开源项目ELMo:机器学习在自动翻译中的应用

1044
来自专栏新智元

【GAN大盘点】十款神奇的GAN,总有一个适合你!

【新智元导读】YannLecun曾赞誉GAN为“近十年来机器学习领域最有趣的想法”,一经提出便受万众瞩目。伴随着研究的逐步深入,GAN已然衍生出了多种多样的形态...

592
来自专栏机器之心

从传统方法到深度学习,人脸关键点检测方法综述

3165
来自专栏AI科技评论

深度| 解密面部特征点检测的关键技术

面部特征点定位任务即根据输入的人脸图像,自动定位出面部关键特征点,如眼睛、鼻尖、嘴角点、眉毛以及人脸各部件轮廓点等,如下图所示。 ? 这项技术的应用很广泛,比如...

2596
来自专栏CVer

[计算机视觉论文速递] 2018-05-29

这篇文章有4篇论文速递信息,涉及图像分类、视频分类和语义分割等方向(含一篇ICLR 2018和一篇CVPR 2018)。

832
来自专栏机器之心

前沿 | 物理学家提出新算法:将量子机器学习扩展到无限维度

选自phys.org 作者:Lisa Zyga 机器之心编译 参与:吴攀、李亚洲 物理学家已经开发出了一种可以处理无限维度(infinite dimensio...

2678
来自专栏AI研习社

F8 2017 | 技术负责人为你解析 Facebook 神经机器翻译

编者按:该讲座主题为 Facebook 机器翻译的两代架构以及技术挑战。 在昨日的 F8 会场,该讲座吸引了众多开发者到场,主讲者是 Facebook 语言翻译...

33211
来自专栏智能算法

面部特征点定位概述及最近研究进展

面部特征点定位任务即根据输入的人脸图像,自动定位出面部关键特征点,如眼睛、鼻尖、嘴角点、眉毛以及人脸各部件轮廓点等,如下图所示。 ? 这项技术...

3997

扫描关注云+社区