学界丨Facebook Yann LeCun最新演讲: AI 研究的下一站是无监督学习(附完整视频加37页PPT)

作为 Facebook 人工智能部门主管, Yann LeCun 是 AI 领域成绩斐然的大牛,也是行业内最有影响力的专家之一。

近日,LeCun在卡内基梅隆大学机器人研究所进行了一场 AI 技术核心问题与发展前景的演讲。他在演讲中提到三点干货:

1. 无监督学习代表了 AI 技术的未来。 2. 当前 AI 应用的热点集中在卷积神经网络。 3. 用模拟器提高无监督学习的效率是大势所趋。

演讲完整视频如下。该视频长 75 分钟,并包含大量专业术语,因此雷锋网节选关键内容做了视频摘要,以供读者浏览。

以下为视频摘要:

一、无监督学习的重要性

AI 技术的飞速进步很大程度上是由于深度学习和神经网络领域的突破,还得益于大型数据库的建立和更快的 GPU。我们现在已有了图像识别能力可与人类相比的 AI 系统 (例如下文中 Facebook 的识别系统)。这会导致自动化交通,医疗图像解析在内的多个领域的革命。但这些系统现在用的都是监督学习(supervised learning),输入的数据被人为加上标签。

接下来的挑战在于,怎么让机器从未经处理的、无标签无类别的数据中进行学习,比方说视频和文字。而这就是无监督学习(unsupervised learning)。

二、神经网络的规模越大越好

传统的思想认为,如果你没有大量的数据,神经网络应该控制在较小的规模。Yann LeCun 指出这完全是错误的。他的团队在数据不变的情况下扩展了神经网络,得到了更好的结果。他说,神经网络越大,效果就越好(当然前提是数据库大小达到了临界值)。至于为什么会这样,目前仍是一个谜,相关理论研究正在开展。

三、卷积神经网络在识别领域的广阔前景

Yann LeCun 特别强调了卷积神经网络的重要性和应用:”我们很早就认识到,卷积神经网络可以被用来处理多种任务——不单单是识别单个物体(比如字母数字),还可以识别多个物体,同时进行物体识别、分组和解释。比方说,可以用卷积神经网络训练 AI 系统识别并标注(摄像头所拍摄)图像中的每一个像素,以此分析前方路径是否可通过。在英伟达最近的自动驾驶项目中,他们就使用了卷积神经网络来训练自动驾驶系统。系统分析摄像头提供的图像,据此模仿人类的转向角度。“

他还介绍了卷积神经网络在 Facebook 图像识别系统中的应用。“有了它之后,Facebook 的系统不仅能识别图像,还能绘制出图像的轮廓,并根据轮廓影像对物体进行分类。该系统甚至可以挑出中国菜里面的西兰花(如下图)。”

下面是对同一幅图像识别前后的对比:

Yann LeCun 表示这是一个巨大的进步,如果你在几年前问一个 AI 专家:”我们什么时候才能做到这样?”,答案会是“不清楚”。

“ 想让 AI 技术继续进步,我们就必须要让机器能够分析、推理、记忆,把现象和文字转化为运行知识。”

他接着作出预测,下一个将会十分流行的技术是记忆增强神经网络。它可被理解为用记忆增强的递归神经网络,其中,记忆本身是一个能被区分的回路,并可以作为学习中的一部分用于训练。Yann LeCun 接下来对该技术进行了深入探讨,这里不赘述,详情请见视频。

四、强化学习、监督学习、无监督学习的数据要求

进行强化学习、监督学习、无监督学习的所需数据规模相差数个数量级。强化学习每次验证(trial)所需的信息可能只有几比特,监督学习是十到一万比特的信息量,而无监督学习则需要数百万比特。所以,Yann LeCun 做了一个比喻:假设机器学习是一个蛋糕,强化学习是蛋糕上的一粒樱桃,监督学习是外面的一层糖衣,无监督学习则是蛋糕糕体。无监督学习的重要性不言而喻。为了让强化学习奏效,也离不开无监督学习的支持。

五、用模拟机制提高强机器学习的效率

当下的主要问题是,AI 系统没有“常识”。人类和动物通过观察世界、行动和理解自然规律来获得常识,机器也需要学会这么做。包括 Yann LeCun 在内的许多专家,把无监督学习作为赋予机器常识的关键,该过程如下:

AI 系统由两部分组成:代理和目标(agent and objective)。代理做出行动,观察该行动对现实的影响产生认知,然后再通过该认知来预测现实情况。代理进行这一系列活动的动机来自于实现目标,而最终的目的则是:以最高的效率达到该目标。在强化学习中,对代理行为的奖励(reward)来自于外部,无监督学习的奖励则来自内部(对接近该目标的满意)。

但这个过程存在一个很大的问题:代理进行无监督学习的方法是在现实生活中进行各种尝试,这存在危险并且效率很低。比如,无人驾驶车不能尝试所有可能的驾驶方法,会带来安全隐患。这种尝试又受到时间的限制,不能像计算机程序那样每秒运行数千次。所以,Yann LeCun 解释道,为了提高机器学习的效率,我们需要基于模型的强化学习(model based reinforcement learning )。它由三部分组成:现实模拟器(world simulator),行动器(actor)和反馈装置(critic)。现实模拟器对现实情况进行模拟,行动器生成行动预案(action proposals),然后反馈装置对该行动的效果进行预测。这样,AI 系统就可以对行动反复推演,进行优化,而不受到现实中时间和成本的限制。

小结: 作为业内大牛,Yann LeCun 的一举一动都受到关注。他之前就发表过对 AI 前景和无监督学习的若干讲话,这一次在卡内基梅隆的研究人员面前再次强调了他的观点。虽然这不是我们第一次听到专家强调无监督学习、甚至是卷积神经网络的重要性;但此次演讲中, Yann LeCun 借用许多技术细节和各大公司、研究院正在从事的研究作为示例,为无监督学习将来会怎样发展作了全面的注解。正因如此,雷锋网建议关注 AI 领域未来发展方向的读者,不妨抽出一个下午仔细听一下演讲,必定会有收获。

附:此前 Yann Lecun 曾分享过卷积神经网络的内容,AI 科技评论发现该内容与上述视频中的内容相似,为了展示更详实的内容,在此特地附上 Yann Lecun 的 37 页 PPT。

深度学习元老Yann Lecun详解卷积神经网络

卷积神经网络(Convolutional Neural Network)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。

Yann LeCun出生在法国,曾在多伦多大学跟随深度学习鼻祖Geoffrey Hinton进行博士后研究。早在20世纪80年代末,Yann LeCun就作为贝尔实验室的研究员提出了卷积网络技术,并展示如何使用它来大幅度提高手写识别能力。上世纪末本世纪初,当神经网络失宠时Yann LeCun是少数几名一直坚持的科学家之一。他于2003年成为纽约大学教授,并从此引领了深度学习的发展,目前任职于Facebook FAIR实验室。本文是Yann LeCun对于卷积神经网络(Convolutional Neural Network)的演讲介绍PPT。

Yann LeCun (信息学与计算机科学)(2015-2016)

ConvNets尝试过程

首个卷积神经网络模型(多伦多大学)(LeCun 88,89)

共320个运用反向传播算法训练的实例

带有步幅的卷积(子样本) 紧密相连的池化过程

在贝尔实验室建立的首个“真实”卷积神经网络模型(LeCun et al 89)

运用反向传播算法进行训练 USPS 编码数字:7300次训练,2000次测试 带有步幅的卷积 紧密相连的池化过程

卷积神经网络(vintage 1990)

滤波-双曲正切——池化——滤波-双曲正切——池化

多重卷积网络

架构

卷积神经网络的结构

卷积神经网络的卷积运算过程大致如下:

输入图像通过三个可训练的滤波器组进行非线性卷积,卷积后在每一层产生特征映射图,然后特征映射图中每组的四个像素在进行求和、加权值、加偏置,在此过程中这些像素在池化层被池化,最终得到输出值。

卷积神经网络的整体结构:

归一化——滤波器组——非线性计算——池化

  • 归一化:图像白化处理的变形(可选择性)

减法运算:平均去除,高通滤波器进行滤波处理 除法运算:局部对比规范化,方差归一化

  • 滤波器组:维度拓展,映射
  • 非线性:稀疏化,饱和,侧抑制

精馏,成分明智收缩,双曲正切等

  • 池化: 空间或特征类型的聚合

最大化,Lp范数,对数概率

LeNet5

卷积神经网络简化模型 MNIST (LeCun 1998)

阶段1:滤波器组——挤压——最大池化

阶段2:滤波器组——挤压——最大池化

阶段3:标准2层 MLP

多特征识别(Matan et al 1992)

每一层都是一个卷积层

单一特征识别器 ——SDNN

滑动窗口卷积神经网络+加权有限状态机

应用

卷积神经网络的应用范围

  • 信号以(多维度)数组的形式出现
  • 具有很强局部关联性的信号
  • 特征能够在任何位置出现的信号
  • 目标物不因翻译或扭曲而变化的信号
  • 一维卷积神经网络:时序信号,文本

文本分类 音乐体裁分类 用于语音识别的声学模型 时间序列预测

  • 二维卷积神经网络:图像,时间-频率表征(语音与音频)

物体检测,定位,识别

  • 三维卷积神经网络:视频,立体图像,层析成像

视频识别/理解 生物医学图像分析 高光谱图像分析

人脸检测(Vaillant et al.93, 94)

  • 应用于大图像检测的卷积神经网络
  • 多尺度热量图
  • 对候选图像的非最大抑制
  • 对256X256图像进行6秒稀疏

人脸检测的艺术结果状态

卷积神经网络在生物图像切割方面的应用

  • 生物图像切割(Ning et al. IEEE-TIP 2005)
  • 运用卷积神经网络在大背景下进行像素标记
  • 卷积神经网络拥有一个像素窗口,标记中央像素
  • 运用一个有条件的随机域进行清除
  • 3D版连接体(Jain et al.2007)

场景解析/标记

场景解析/标记:多尺度卷积神经网络结构

  • 每一个输出值对应一个大的输入背景

46X46全像素窗口;92X92 1/2像素窗口;182X182 1/4像素窗口 [7X7卷积运算]->[2X2池化] ->[7X7卷积运算] ->[2X2池化] ->[7X7卷积运算] -> 监督式训练全标记图像

方法:通过超级像素区域选出主要部分

输入图像——超像素边界参数——超像素边界——通过超像素进行主要部分投票处理——类别与区域边界对齐 多尺度卷积网络——卷积网络特征(每个像素中d=768)卷积分类——“soft”分类得分

场景分析/标记

  • 无前期处理
  • 逐帧进行
  • 在Vittex-6 FPGA硬件上以50ms一帧运行卷积网络

但是在以太网上传输特征限制了系统的表现

针对远程自适应机器人视觉的卷积网络(DARPA LAGR项目2005-2008)

输入图像 标记 分类输出

非常深的卷积网络架构

小内核,较少二次抽样(小部分二次抽样)

VGG GoogleNet Resnet

使用卷积网络进行对象检测和定位

分类+定位:多重移动窗口

  • 将带多重滑动窗口的卷积网络应用到图像上
  • 重要提示:将卷积网络应用到一张图片上非常便宜

只要计算整个图像的卷积并把全连接层复制

分类+定位:滑动窗口+限定框回归

  • 将带多重滑动窗口的卷积网络应用到图像上
  • 对每个窗口,预测一个类别和限定框参数

即便目标不是完全包含在浏览窗口中,卷积网络也能猜测它认为这个目标是什么。

Deep Face

  • Taigman等 CVPR 2014

队列 卷积网络 度量学习

  • Facebook开发的自动标记方法

每天8亿张图片

使用卷积网络进行姿势预估和属性恢复

深度属性模型的姿势对齐网络

Zhang等 CVPR 2014 (Facebook AI Research)

人物检测和姿势预估

Tompson,Goroshin,Jain,Lecun,Bregler等 arxiv(2014)

监督卷积网络画图

  • 使用卷积网络来画图
  • Dosovitskyi等 arxiv (1411:5928)

监督卷积网络画图

  • 生成椅子
  • 特征空间对椅子进行计算

全局(端对端)学习:能量模型

输入——卷积网络(或其他深度架构)——能量模块(潜在变量、输出)——能量

  • 使得系统中每个模块都能进行训练。
  • 所有模块都是同时训练的,这样就能优化全局的损失函数。
  • 包括特征提取器,识别器,以及前后处理程序(图像模型)。
  • 问题:反向传播在图像模型中倾斜

深度卷积网络(还有其他深度神经网络)

  • 训练样本:(Xi,Yi)k=1 到 k
  • 对象函数(边缘型损失= ReLU)

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-11-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

数据挖掘竞赛的套路就在这里了,看完本文全明白!

刚好在暑假通过参加 Kaggle 的 Zillow Prize 比赛来让我在数据挖掘和机器学习中完成了菜逼到 Level 1 的转变,借这个平台总结一下比赛的...

3856
来自专栏算法+

图像去模糊算法 循序渐进 附完整代码

这样看,虽然知道是在做一个点面计算的操作,但是要具体描述卷积的用途或者原理,是有点困难的。

1963
来自专栏Spark学习技巧

27个机器学习的小抄你值得收藏

824
来自专栏AI研习社

MIT 6.S094· 深度学习 | 学霸的课程笔记,我们都替你整理好了

深度学习:为多项人工智能技术服务的成套技术,近年来伴随着研究的不断深入和GPU能力的不断拓展,它也变得更加强大,SDC就是能够利用这些技术的系统。

1122
来自专栏新智元

ICLR 2018最佳论文重磅出炉!Adam新算法、球形CNN等受关注

---- 新智元报道 作者:小潘 【新智元导读】今天,ICLR官网公布了ICLR 2018的最佳论文,一共三篇。这些论文在被ICLR接收之后持续得到讨论...

3337
来自专栏深度学习自然语言处理

详解机器学习之the Learning Problem

阅读大概需要10分钟 Why do we learn Machines Learning 之前虽然学过逻辑回归LR,支持向量机SVM等机器学习的零星小片段,还有...

29310
来自专栏AI研习社

BAT资深算法工程师Deep Learning读书分享

「Deep Learning」是机器学习领域的重磅书籍,不管你有没有入手开始阅读,AI 研习社都希望给大家提供一个共同讨论、共同提高的机会。我们请来了曾在百度和...

34810
来自专栏目标检测和深度学习

MIT 6.S094· 深度学习 | 学霸的课程笔记,我们都替你整理好了

雷锋字幕组获MIT课程团队授权翻译自动驾驶课程,视频链接:http://www.mooc.ai/course/483/info 我们为你整理了每一个Lectu...

952
来自专栏量化投资与机器学习

【全网首发】——机器学习该如何应用到量化投资系列(一)

有一些单纯搞计算机、数学或者物理的人会问,究竟怎么样应用 ML 在量化投资。他们能做些什么自己擅长的工作。虽然在很多平台或者自媒体有谈及有关的问题,但是不够全面...

2778
来自专栏大数据挖掘DT机器学习

基于LSTM搭建一个文本情感分类的深度学习模型:准确率往往有95%以上

基于情感词典的文本情感分类 ? 传统的基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟,如上图。我们首先通过学习来记忆一些基本词汇,如否定词语...

5244

扫码关注云+社区