【独家】深扒Yann LeCun清华演讲中提到的深度学习与人工智能技术(PPT+视频)

本文长度为3000字,建议阅读10分钟

本文为Yann LeCun在清华大学做的关于深度学习与人工智能技术的演讲梗概。

姚期智先生引言:

非常荣幸来给大家介绍今天的演讲嘉宾!大家一定还记得去年的一个大事件——AlphaGo在围棋上战胜了人类冠军。围棋被认为是人类智力竞赛的王冠,而AlphaGo背后的最重要的技术就是深度学习。今天的演讲嘉宾就是深度学习方面的专家LeCun。

LeCun现任Facebook AI研究院院长,同时他也是美国纽约大学的终身教授。他的研究兴趣包括机器学习、计算机视觉、移动机器人以及计算神经学等。他因著名且影响深远的卷积神经网络(CNN)相关的工作而被人称为CNN之父。

活动视频梗概,观看课程完整视频,请点击“阅读原文”

LeCun演讲梗概

LeCun演讲内容跨度数十载,从最早追溯到1957年神经科学的监督学习谈起并对神经网络的训练做了一个基本的介绍。接着Lecun重点讲解了他的成名作——卷积神经网络(CNN),还给大家展示了录制于1993年的珍贵视频——年轻的LeCun在一台486 PC上编写的光学字符识别系统。

不知那时候还在攻读博士的LeCun是否想到他的研究成果在随后的二十年给整个世界带来的巨大影响和翻天覆地的变化。然而,在当时的环境下,并不是所有的人都相信神经网络技术,更多的人倾向于一些有理论保障的机器学习方法,比如kernel machine等。

LeCun给大家展示了他在1995年所见证的两位机器学习前辈Jackel和Vapnik(当时他们都在贝尔实验室,Jackel是Vapnik的上司)的两个有趣赌局:第一个赌局中,Jackel声称最迟到2000年我们就会有一个关于大的神经网络为什么有效的理论解释,当然随后的历史证明他输了;第二个赌局中,Vapnik声称最迟到2000年没有人将会继续使用1995年的这些神经网络结构(意思是大家都会转而使用支持向量机SVM,Vapnik是SVM的发明人之一),结果Vapnik也输了。

不仅在2000年,大家依然在用,直到今天,在结合了大数据与强大计算能力后,这些古老的神经网络结构迸发出更加巨大的能量。这个深度学习史上有趣的八卦,我们如今听来却也不胜唏嘘。技术的发展往往是螺旋式且兼具跳跃性,实在难以预料。正如今天的我们在清华的大礼堂里与LeCun一起畅想着深度学习与人工智能的未来,却不知十年、二十年后我们又在哪里用什么样的视角来看待今天的自己。

技术干货

尽管未来是如此的难以预料,但科研的道路却是一步一个脚印的走出来的。LeCun接着给大家展示了一系列的技术干货,包括近几年在计算机视觉(Computer Vision)、深度学习(Deep Learning)等方面的最新进展以及颇有未来潜力的技术方向对抗学习(Adversarial Learning)。

深度卷积网络(Deep Convolutional Nets)

LeCun先向大家介绍了在各类计算机视觉任务中举足轻重的技术——深度卷积神经网络(Deep CNN)。并向大家解释为什么深度卷积网络会非常有效,因为我们假设世界(图像)是由很多很多小的部分(特征)组合而来,而当深度卷积网络作用于图像时,随着深度的增加会提取出更加高层次的抽象特征,而这些特征对图像的识别非常有用。原始的机器学习方式是需要人来手工设计特征,再在设计后的特征上训练分类器,而深度学习高效地自动化了特征抽取及表示这一块的工作,因此现在已经成为图像处理的主导性技术。深度学习被视为一种自动学习层级化特征表示的学习方法。

近些年,逐渐加深的深度卷积神经网络显示出了依次递增的识别效果,从VGG到GoogLeNet,再到ResNet,也印证了LeCun所说的深度卷积网络逐层抽取特征的能力。

接着,LeCun给大家展示了一些基于深度卷积网络的有趣应用,比如自动驾驶,

看图说话,

定位并识别物体的DeepMask技术,

更加高性能的SharpMask++,

以及图像中各类目标的定位及识别。

人工智能继续前进的障碍(Obstacles to AI)

LeCun认为想要实现人工智能,机器需要首先感知世界的状态,然后需要能够更新记忆世界的状态,并在此基础上实现推理规划。因此,智能和常识可以视为感知(Perception)+预测模型(Prediction Model)+记忆(Memory)+推理和规划(Reasoning & Planning)。

那么什么是常识呢?比方说“汤姆拿起了他的包离开了房间”,我们人看到这个视频就可以理解对应的行为,而机器只是看到了汤姆拿起包、打开门、离开房间和关上门等一系列的动作,如何让机器去理解呢?

常识就是通过想象(预测)来填补空白的能力。

接着LeCun指出了进一步发展非监督学习(预测学习)的必要性。考虑到用于训练一个大的学习机器的必要数据量取决于我们要求它能预测多少信息,因此,仅仅预测人们所提供的标签(监督学习)是不够的,仅仅预测一个值函数(强化学习)也是不够的。

接着LeCun展示了他著名的“蛋糕”理论。根据需要机器预测信息的多寡来考量,“纯”的强化学习仅仅是蛋糕上的樱桃,而监督学习也不过只是蛋糕的一层糖衣,真正的蛋糕本身其实是强化学习(预测学习)。

当然这里LeCun表示这种说法有些冒犯强化学习方向的同僚,因为强化学习确实获得了一些巨大突破,比如AlphaGo还有各种电竞游戏等。

LeCun展示了经典的强化学习架构Dyna——“在脑中先尝试然后再去行动”,以及经典的基于模型的最优控制。

人工智能系统的架构(The Achitecture of an Intelligent System)

LeCun展示了人工智能系统的两个重要组成部分:一个会学习的智能体和一个不变的目标函数。智能体进行从世界中感知,做实际决策,再感知,再决策,………这样一个循环迭代的过程,智能体的目标是最小化长期的期望损失。

而把预测和规划联合起来就是推理。如何优化智能体做决策的过程呢?可以通过最小化预测损耗来实现。

我们需要的是如下基于模型的增强学习。

学习世界的前向预测模型(Learning Predictive Forward Models of the World)

LeCun给大家展示了基于卷积网络预测掉落物体轨迹的PhysNet。

之前LeCun提到,记忆(Memory)是非常重要的一块,而最新的研究工作就尝试了如何把记忆引入到神经网络中去,即所谓的记忆网络(Memory Network)。

通过引入可导的记忆模块,我们就可以直接通过反向传播(BP)来训练如何处理记忆。

Facebook提出了实体周期神经网络(Entity Recurrent Neural Network),这是第一个解决所有20个bAIb任务的模型。(bAIb是Facebook设计的测试模型推理能力的数据集)

非监督学习(Unsupervised Learning)

LeCun介绍基于能量的非监督学习,基本的思想是学习一个能量函数,使其在数据流形上具有较低的值,而在空间其他地方具有较高的值。

那么我们怎么学习能量函数呢?

我们可以参数化能量函数,然后利用数据估计出相应的参数。那具体我们是怎么估计的呢?

下面列了7种构建能量函数的策略,但LeCun表示并不想讲这7种,因为近几年提出的对抗学习(Adversarial Learning)更有意思。

对抗学习(Adversarial Learning)

LeCun指出预测模型的困难之处,需要基于不确定性去做预测。比如我们感知到了一个输入X,而X不过是世界里真实分布的一个采样,假设其由某个隐变量Z而决定,其相应的预测值Y是处于空间的某个流形分布之中,如果采样不够多的话,我们并不能够很好的估计这个流形,这也是预测的困难之处。

而从基于能量的观点看对抗学习,可以由生成器来决定让哪些点的能量值变高。

下面看一个生成器的例子,输入是随机数,输出是卧室图片。这都是完全由模型生成的图片,并不真实存在。

有趣的是对抗训练可以做算术运算生成相应含义的图像。

对抗训练还可以用在视频预测上,取得了不错的效果。

我们可以像人脑一样去预测未来吗?可能目前通过对抗训练取得了一些进展,但这个问题还远远没有解决。

如果使用模型预测5帧,效果还不错。

但如果我们用其预测50帧的话,效果就大打折扣了。

尾声

两个小时的演讲结束后,大家热情依然高涨,踊跃地向LeCun提各种问题,LeCun也给出了很多精彩的回答,他认为现在的研究环境越来越好,有在线免费的学术分享网站Arxiv(https://arxiv.org),每天都会有新工作挂出供大家学习讨论,同时大家都争相开源代码,方便更多的人发现并学习新技术,技术的更新迭代速度越来越快,他相信未来人工智能和深度学习技术还会有更大的进步,将从各个方面改善人们的生活,比如更安全的自动驾驶,Facebook更智能的人与人的连接服务等等。

本内容出自《创新与创业:硅谷洞察》(Innovation and Entrepreneurship: Insights from Silicon Valley)课程(课号:60510302)的于3月22日在清华大礼堂的公开课。该课程由清华大学经济管理学院发起,清华x-lab与Facebook公司联合设计。

本文所用活动照片、视频由清华x-lab提供。

本文PPT选自LeCun在NIPS 2016上的公开内容。

注:点击“阅读原文”可查看本内容的MOOC视频。回复公众号关键字“Facebook”可下载PPT。

作者介绍

郑顺,清华大学交叉信息研究院博士生,研究方向为机器学习及其相关应用。曾在百度大数据实验室参与过大规模机器学习算法的设计及实现,同时对自然语言金融投研、无监督欺诈检测也有一定研究兴趣。

校对:李君

编辑:卢苗苗

原文发布于微信公众号 - 数据派THU(DatapiTHU)

原文发表时间:2017-03-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

机器学习和统计模型的差异

在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么? 这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者...

3206
来自专栏新智元

自然语言处理终极方向:深度学习用于自然语言处理的5大优势

【新智元导读】在自然语言处理领域,深度学习的承诺是:给新模型带来更好的性能,这些新模型可能需要更多数据,但不再需要那么多的语言学专业知识。 在自然语言处理领域,...

3776
来自专栏机器学习算法与Python学习

286页PDF教你如何搞明白深度学习的算法、理论与计算系统!(可下载)

如何将深度学习等AI算法应用到实际场景里,不是一件容易的事情。 结合Petuum, 邢波教授在7月份深度学习夏令营分享了关于从统计机器学习视角理解深度学习的算法...

2244
来自专栏深度学习

人脸识别技术发展及实用方案设计

人脸识别技术不但吸引了Google、Facebook、阿里、腾讯、百度等国内外互联网巨头的大量研发投入,也催生了Face++、商汤科技、Linkface、中科云...

4877
来自专栏IT派

统计vs机器学习,数据领域的“少林和武当”!

虽然这两个学派的目的都是从数据中挖掘价值,但彼此“互不服气”。注重模型预测效果的人工智能派认为统计学派“固步自封”,研究和使用的模型都只是一些线性模型,太过简单...

941
来自专栏原创

AI技术说:人工智能相关概念与发展简史

作为近几年的一大热词,人工智能一直是科技圈不可忽视的一大风口。随着智能硬件的迭代,智能家居产品逐步走进千家万户,语音识别、图像识别等AI相关技术也经历了阶梯式发...

4696
来自专栏专知

图深度学习(GraphDL),下一个人工智能算法热点?一文了解最新GDL相关文章

【导读】最近,DeepMind、Google大脑、MIT等各大研究机构相继发表了一系列的关于图深度学习的论文,包括关系性RNN、关系性深度强化学习、图卷积神经网...

5905
来自专栏AI科技评论

澳门大学讲座教授陈俊龙:从深度强化学习到宽度强化学习 - 结构,算法,机遇及挑战

AI 科技评论按:2018 年 5 月 31 日-6 月 1 日,中国自动化学会在中国科学院自动化研究所成功举办第 5 期智能自动化学科前沿讲习班,主题为「深度...

1346
来自专栏大数据文摘

大咖 | GAN之父Ian Goodfellow在Quora:机器学习十问十答

1634
来自专栏专知

数据少,就享受不到深度学习的红利了么?总是有办法的!

【导读】深度学习,有太多令人惊叹的能力!从12年的图像识别开始,深度学习的一个个突破,让人们一次又一次的刷新对它的认知。然而,应用深度学习,一直有一个巨大的前提...

1504

扫码关注云+社区

领取腾讯云代金券