首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【LeCun & Bengio】NIPS 2015 深度学习专题论坛实录(35PPT)

【LeCun & Bengio】NIPS 2015 深度学习专题论坛实录(35PPT)

作者头像
新智元
发布2018-03-13 17:49:30
7800
发布2018-03-13 17:49:30
举报
文章被收录于专栏:新智元新智元

Yann LeCun:纽约大学终身教授,Facebook人工智能实验室负责人。

Yoshua Bengio:加拿大蒙特利尔大学教授,深度学习大神。

“Deep learning is not a completely generalsolution to everything”

“深度学习不是一种能够解决一切问题的通用方法。”

“There is no magic.

“这个世界上没有魔法。”

突破 Breakthrough

深度学习是基于对多层表征/ 抽象进行学习的机器学习算法

从机器学习到AI,需要4个元素:

  • 大量数据(Lots ofdata)
  • 非常灵活的模型(Veryflexible models)
  • 足够的计算力(Enoughcomputing power)
  • 足以打败维度诅咒的先验条件(Powerful priors that can defeat curse of dimensionality)*是传统的核方法(kernelmethods)所缺乏的

在深度学习中,除了平滑性之外还有两种其它的先验条件可以对此有所帮助:

  • 分布式表征 / 嵌入映射(Distributedrepresentations / embeddings),也就是特征学习
  • 深模型(Deep models)

分布式表征的指数级优势

非分布式:功能(function)的复杂度随着特征的增加会有指数级的增长。如果你想象一下识别模型,就会发现激活单元(activation units)都是有意义的。这暗示了这些神经网络发现了有意义的特征,并且这些特征在学习上是互相独立的。

另一个观点是,深度学习表示的是自动化的特征探索(automated feature discovery)。人们以为一个单独的神经网络就能表征一切,但实际上有许多功能(function)需要指数级增长的单元数量。

反向传播 Backpropagation

由系统找出来如何梯度计算系统中的所有参数的方法。修正线性单元(Rectified linear units,RELU)互相之间区分度并不非常高,但足够相近(close enough to work)。用随机梯度下降法(stochastic gradient descent)进行训练。对小批量的样本(迷你批量,minibatch)计算梯度均值。

卷积神经网络Convolutional neural networks

当数据中的本地变量是高相关的,而有用的特征随处都有可能被找到时,应该使用具有平移不变性(shift invariance)的卷积神经网络。卷积神经网络的复制(replicate)是相当容易的。

递归神经网络Recurrent neural networks

应用于学习动态的系统。可以表征完全连接的有向生成模型(fully connected directed generative model):每一个变量都是被它之前的所有变量所预测得出的。

雅可比矩阵(jacobians)的奇异值(singular value)会让梯度爆炸式增长。为了获得稳定的学习,梯度的奇异值需要小于1。

梯度模截取(Gradient Norm Clipping):如果梯度模在阈值以上,那么将它降低到阈值水平。

LSTM是一种特殊结构,可以用于多重时间尺度,处理长时依赖(long-term dependencies)的问题。正向或是反向地创建信息拷贝的路径。

反向传播实践 Backprop in Practice

使用反向传播时,需要将输入数据正态化以“避免病态问题(ill conditioning)”。

大型神经网络会收敛到本地最小值(local minima)。本地最小值有很多,但大部分是差不多的(凸性(convexity)是不必要的):(1)大部分本地最小值都接近整体的误差最小值(global minimum error);(2)训练网络的误差会以很快的速度集中到一个值附近;(3)Yoshua和Lecun的团队在之前一些年里有一些结果证明了这一点。

随机神经元作为正则化矩阵 Stochastic neurons as a regularizer

流失法(dropout)可以被想像成正则化(regularization)的过程 ——

“Brutal, murderous, genocidalregularization.”

“一种野蛮、凶狠、斩尽杀绝式的正则化。”

批量正态化:对迷你批量数据的激活进行标准化处理(standardize)。

超参数(hyperparameters)随机取样,常见方法是人工加上网格搜索(grid search)。而随机搜索比较简单高效,搜索超参数的时候应该使用随机搜索。

应用

1.视觉

Facebook上每天有7亿张照片的数据上传,每张照片都会流入两个卷积神经网络中——物体识别网络和脸部识别网络。所有硬件设备公司都在调整芯片以适应卷积神经网络。

在2D图像上的应用:场景解析/ 标记(scene parsing / labelling),比如在图片中的建筑上标上“建筑”。

通过学习和不变映射(invariant mapping)降维。

2.语音识别

深度学习大幅提高了语音识别技术。端对端训练。

带有搜索的端对端训练:神经网络+HMMs

3.自然语言表征

"Language is one of most interesting, from deep learning point of view."

“从深度学习的角度来看,语言是最有趣的方向之一”

起源于80年代 geoff hinton的想法。神经网络第一层将符号对应到向量(word vector(词向量),word embedding)上。然后输出层覆盖了所有词汇。(P76)神经词向量(Neural word embeddings):形象化方向(visualisation directions)=习得属性(learned attributes)。

Mikolov等人的ICLR可以玩游戏。词向量(word2vec)的算法。例如国王-王后=男人-女人(king-queen = man-woman)、巴黎-法国+意大利=罗马(paris - france + italy = rome)。这意味着在不同语义属性下的向量空间是有方向的。

为了让机器翻译,找到适用于所有语言的中间表达形式接着将其对应到不同的表达中。

人们如何从很少的例子中完成概括 How do humans generalise from very few examples

从以往所学中迁移知识:表征(representations)和解释因子(explanatory factors)。需要对表征进行学习。先验经验:一种共享的潜在解释因子,特别是在p(x)与p(y|x)之间进行解释。

非监督和迁移学习挑战:在数据上先做非监督学习接着做新任务的监督学习。

多任务学习:共享网络的较低层(潜在因子在各种任务中是普遍的)接着有更多特定网络。能够概括得很快。

谷歌图像搜索:联合嵌入(joint embedding),在多模块之间共享表达。

非监督式表征学习

潜在益处:利用海量的未标记数据(unlabelled data);回答对于观测变量的新问题;正则化(Regularizer)—迁移学习—模块自适应(domain adaptation);更容易优化;联合(结构)输出(Joint (structured) outputs)

为什么潜在因子(latent factors)不属于非监督表达学习?:因为因果关系。依据X和Y之间因果关系的方向,你将会得到一个不错的结果或者陷入麻烦中。例子:考虑混合三个高斯函数——仅仅通过观察X的密度揭示了原因y(集群ID(cluster ID))。

不变特征不属于理清的潜在因子:学着理清因子,例如将所有的解释因子保持在表达中。很好地理顺 ->避免维度诅咒。

非监督神经网络:波尔兹曼机-能量指数的归一化。为了从这些中抽样,不得不用迭代抽样方案:随机松弛算法、MCMC。预测性稀疏分解(Predictive Sparse Decomposition,PSD)。

自动编码器的概率解释:流形学习和自动编码器的概率解释。有了训练自动编码器的特定方式,你可以获得数据分布。根据输入对数密度函数的微分收敛。从损坏的数据到流形来学习向量场。如果你做编码-解码-编码-解码马尔可夫链(encode-decode-encode-decode markov chain)然后静态分布是分布的估计。

最近:helpholtz机器和动态自动编码器(VAEs)。同时训练编码器和解码器并在所有层级中加入噪音来抵抗编码器输出和之前输出之间的错配。(P116)

评论 Final Remarks

未解决的问题:问题的答案为我们所处理的机器学习问题带来飞跃:展示视频片段并绘制下一个框架,神经网络运行的不好-世界是无法预测的,不能只运用观察。深度学习意味着我们应该概括出更高层面的抽象。你如何评价非监督学习?自然语言理解和推理?弥补生物学上的空白。深度强化学习。

干货下载

1.【华创证券】机械设备:机器人大趋势

2.【东吴证券】大国崛起:中国智造值得中长期布局

3.【广发证券】清洁机器人:旧时王谢堂前燕,飞入寻常百姓家

4.【民生证券】人工智能 + 适合的应用场景

5.【荐书】The Master Algorithm

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档