【NIPS 主旨演讲】Yann LeCun:用预测学习替代无监督学习(75PPT)

【新智元导读】日前,Facebook AI 实验室负责人、纽约大学教授 Yann LeCun 受邀在今年的 NIPS 大会发表主旨演讲,畅谈深度学习最近技术进展。值得注意的是,LeCun 试图改变人们对 AI 的通常分类(即无监督学习、监督学习和增强学习),他在演讲中用“预测学习”替代“无监督学习”,因为预测学习要求机器不仅能在没有人类监督的情况下学习,而且能够学习世界的预测模型。

此外,LeCun 还引入了使用 RNN 实体从文本中推断世界的状态等新的技术,结合深度学习领域最新发展,比如 TorchCraft、使用对抗训练让系统预测视频接下来的内容。【在新智元微信公众号回复1207,可下载全部75页PPT】

要了解今年 NIPS 的盛况,先上一张图:

2016 年,作为学界顶级盛会的 NIPS 共收到投稿超过 2500 篇,最终接收了 568 篇——保守估计接收率 22.7%。这个论文接收率并不算那么低(相较其他顶会),不过,得到口头展示机会的名副其实百里挑一。

再看参会人数及其近年来的增长趋势(上图右)——尤其是近两年,用“直线上升”形容毫不夸张。如果这个显示的是某个国家的 GDP,估计领导人绝对合不拢嘴了。

作为 2016 年 NIPS 大会受邀发表主旨演讲的第一人,纽约大学教授、Facebook 人工智能实验室(FAIR)主管 Yann LeCunn 的演讲备受瞩目:

(文/Carlos E. Perez)Yann LeCun 今年演讲中多次提到这样一个类比:

如果把“智能”(intelligence)比作一个蛋糕,那么无监督学习就是蛋糕本体,监督学习是蛋糕上的糖霜,而增强学习是蛋糕上的樱桃。我们知道如何得到糖霜和樱桃,但不知道怎样做蛋糕。

在 NIPS 2016 上,LeCun 开始使用“预测学习”(predictive learning)这个词代替“无监督学习”(unsupervised learning)。LeCun 在演讲中说:

我们缺乏的一个关键要素是预测(或无监督)学习:机器具有模拟环境,预测未来的可能性,以及通过观察和参与理解世界如何运作的能力。

这是一个有趣的变化,表明 LeCun 的“做蛋糕”观点有了一些微妙的变化。在 LeCun 看来,需要建立基础,然后才能让 AI 加速进步。换句话说,在我们能够建立“预测基础层”(predictive foundational layer)之前,试图通过增加更多的内存、知识库、协作智能体等构建当前的监督学习将会十分困难。

在 NIPS 大会上,他贴出了下面这张 PPT:

1. 机器需要学习/理解世界的运转方式

物理世界、数字世界、人

需要掌握常识

2. 机器需要学会大量的背景知识

通过观察或者行动

3.机器需要感知世界的变化

以作出精准的预测和计划

4.机器需要更新并记住对世界状态的预测

关注重大事件、记住相关事件

5. 机器需要会推理和计划

预测哪些行动会带来预期的改变

智能&常识=感知+预测模型+记忆+推理&计划

LeCun 的演讲强调了我们面前的艰巨任务。

预测学习要求机器不仅能在没有人类监督的情况下学习,而且能够学习世界的预测模型。这点非常重要,这也是为什么 LeCun 试图改变人们对 AI 的通常分类(即无监督学习、监督学习和增强学习)。


以下为 Yann LeCun NIPS 2016 演讲实录——《预测学习》

很高兴跟大家分享,今天我演讲的主题是“预测学习”。

什么是预测学习?首先,我们还是要先从感知机讲起。从下面的照片中可以看见年轻的 Geoff Hinton,他当时还是 CMU 的研究员。Tarry Knoafski、Jay McLaren(他当时也在CMU),在 McLaren 旁边是 Michael Jordan。照片上的这些人现在基本都已经成就了一番大事业。还有我,我就在那里。

当时是段美好的时间。那时候是人们第一次开始提起 Backpropagation,Backpro 这个概念在当时真的超级火,虽然论文还没有发表出来——照照片的时候还是 1986 年7月,在章节中涉及 BP 算法的书后来才出版,相关论文也是一年后才在 Nature 发表。

我现在展示的这张照片显示的是感知机——我们都忘记了 20 世纪 50 年代的感知机,但感知机可以说是所有神经网络的基础。感知机实际上并不是一个计算机程序,而是一台模拟计算机(analog computer)。与神经元模型不同,感知器中的权值是通过训练得到的。你只要一按键,当系统发生错误时,所有的模块都会“死过去”。

我们都知道监督学习是什么了,而我之所以要提监督学习,是因为后面我们会涉及为什么它有局限。在机器学习中,我们将样本——比如汽车或者飞机的图像,输入有很多可调参数的机器里——这实际上是一个类比。当输入的是一辆车时,红灯就会亮,当输入是飞机时就打开绿灯。然后我们就不停调整参数。通过增加梯度,我们可以调整亮绿灯的次数。

深度学习,从监督学习开始

这张 Slide 大家都看过很多次了,用于物体识别的深度卷积网络。监督学习实际上就是学会层次化的表征。例如下面用卷积网络做自动驾驶,这是当初 DARPA 挑战赛做的机器人。

使用卷积网络生成图说、进行图像词义分割

使用卷积网络进行的自动驾驶

多层神经网络:

一个单元包含多层神经网络

一个单元计算其获得的输入的一部分加权和

加权和会通过一个非线性函数

学习算法会改变权重

人工智能发展所面临的困境

1. 机器需要学习/理解世界的运转方式

物理世界、数字世界、人

需要掌握常识

2. 机器需要学会大量的背景知识

通过观察或者行动

3.机器需要感知世界的变化

以作出精准的预测和计划

4.机器需要更新并记住对世界状态的预测

关注重大事件、记住相关事件

5. 机器需要会推理和计划

预测哪些行动会带来预期的改变

智能&常识=感知+预测模型+记忆+推理&计划

什么是常识?代词“它”的指代对象,动作的执行者。机器该怎么理解。

预测学习/无监督学习的重要性

训练大型学习机器所要求的样本的数量,取决于我们让它预测的信息量

我们向机器提问的信息越多,所需的样本数量越大

大脑有 10^14 的神经突触,而我们的生命只有 10^9 秒。我们拥有的参数的量远超数据的量。这就激发了一种想法,即由于知觉输入(包括本体感觉)是唯一能每秒得到 10^5 个维度的约束的地方,我们必须要做很多的无监督学习。

预测人类提供的标记是不足够的

预测一个价值函数也不足够

如果把“智能”(intelligence)比作一个蛋糕,那么无监督学习就是蛋糕本体,监督学习是蛋糕上的糖霜,而增强学习是蛋糕上的樱桃。我们知道如何得到糖霜和樱桃,但不知道怎样做蛋糕。

在 FAIR 使用强化学习训练系统玩游戏的例子

顺便给刚刚开源的 TorchCraft 打一下广告

有趣的是,在LeCun讲解 Sutton例子时,Sutton 本人就在下面听(最后排最右边)。来源:Twitter

经典的基于模型的优化控制

用初始控制序列模拟世界

调整控制序列,通过梯度下降优化对象

在上世纪 50 年代,通过控制论,发明了 BP 算法

智能系统的架构

AI 系统 = 会学习的智能体 + 不可变对象

AI 系统 = 会预测 + 会规划= 能够进行推理

我们需要的是基于模型的强化学习系统

智能体的关键在于能够预测

要进行预测,就必须对世界进行模拟,至少对物体功能进行一定程度上的预测

让机器学习会预测世界的模型

学习物理:物理网络

从文本中推断世界的状态:使用实体 RNN

具有记忆模块的增强神经网络

递归神经网络不能长久地记忆,需要一个额外的记忆模块

递归网络的记忆时间不长:大脑皮层能维持的记忆时间只有 20 秒

我们需要“海马体”(一个单独的记忆模块)

LSTM [Hochreiter 1997]

记忆网络 [Weston et 2014] (FAIR),关联记忆

Stack RNN [Joulin & Mikolov 2014] (FAIR)

神经图灵机 [Graves 2014]

可微分神经计算机 [Graves 2016]

差分记忆

记忆增强递归网络

实体RNN

保持对世界当前现状的估计

每个模块都是一个带有“记忆”的递归网络

每次输入都当值记忆单元更新

无监督学习

基于能量的非监督学习,能量函数

塑造能量函数的七大策略

  1. 构建机器使低能物质的容量恒定
  2. 使数据点能量下降,其余上升
  3. 使数据点能量下降,选定位置能量上升
  4. 使梯度最小,数据点周围曲率最大
  5. 训练动态系统
  6. 利用正则化项限制低能量的空间容量
  7. 假如 E(Y) = IIY - G(Y)II^2,使 G(Y) 尽量“恒定”

对抗训练

基于能量的非监督学习

对抗训练:可训练的对象函数

在图像识别上的应用

使用对抗训练,对视频内容进行预测

人类的大脑是“预测机器”

我们能够把机器训练得能够预测未来吗?

在这方面,使用“对抗训练”取得了一些进展

但是,离成功或者说完善的解决方案,还要十分遥远的距离

使用对抗网络进行视频内容预测实例

编译来源:

  1. https://medium.com/intuitionmachine/predictive-learning-is-the-key-to-deep-learning-acceleration-93e063195fd0#.7ia0cj6ip
  2. LeCun NIPS 2016 演讲

责编:WF

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-12-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【干货】为什么深度学习要使用大量数据?

3891
来自专栏数据派THU

【独家】深扒Yann LeCun清华演讲中提到的深度学习与人工智能技术(PPT+视频)

本文长度为3000字,建议阅读10分钟 本文为Yann LeCun在清华大学做的关于深度学习与人工智能技术的演讲梗概。 姚期智先生引言: 非常荣幸来给大家介...

2257
来自专栏新智元

自然语言处理终极方向:深度学习用于自然语言处理的5大优势

【新智元导读】在自然语言处理领域,深度学习的承诺是:给新模型带来更好的性能,这些新模型可能需要更多数据,但不再需要那么多的语言学专业知识。 在自然语言处理领域,...

3806
来自专栏机器之心

资源 | 最入门级别的机器学习图书:Chris Bishop发布在线新书

选自MBML book 参与:蒋思源 PRML 大神、微软剑桥研究院院长 Chris Bishop 与 John Winn 的机器学习新书 Model Base...

2926
来自专栏包子铺里聊IT

经典智能算法快速入门——神经网络概念篇

在大数据年代,各种机器学习算法的应用也日渐广泛。虽然在实际生产中只要调用各种成熟的算法库即可解决机器学习问题,但我们也需要对这些算法有概念上的了解。小编在这里就...

2966
来自专栏PPV课数据科学社区

机器学习和统计模型的差异

在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么? 这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者...

3226
来自专栏深度学习

人脸识别技术发展及实用方案设计

人脸识别技术不但吸引了Google、Facebook、阿里、腾讯、百度等国内外互联网巨头的大量研发投入,也催生了Face++、商汤科技、Linkface、中科云...

5037
来自专栏IT派

统计vs机器学习,数据领域的“少林和武当”!

虽然这两个学派的目的都是从数据中挖掘价值,但彼此“互不服气”。注重模型预测效果的人工智能派认为统计学派“固步自封”,研究和使用的模型都只是一些线性模型,太过简单...

951
来自专栏人工智能头条

CNN太牛!微软计算机视觉在ImageNet挑战中首超人类视觉

2294
来自专栏新智元

【普华永道全息图解】机器学习演化史,方法、应用场景与发展趋势

【新智元导读】普华永道最近推出了一系列机器学习信息图示,很好地将机器学习的发展历史、关键方法以及未来会如何影响社会生活展现了出来。基础概念部分包括机器学习各大学...

3949

扫码关注云+社区

领取腾讯云代金券