【Bengio领衔】DeepMind、谷歌大脑核心研究员2017深度学习最新报告（PPT）

新智元

发布于 2018-03-27 17:24:25

7170

发布于 2018-03-27 17:24:25

文章被收录于专栏：新智元新智元

【新智元导读】 深度学习领军人物 Yoshua Bengio 主导的蒙特利尔大学深度学习暑期学校目前“深度学习”部分的报告已经全部结束。本年度作报告的学术和行业领袖包括有来自DeepMind、谷歌大脑、蒙特利尔大学、牛津大学、麦吉尔大学、多伦多大学等等。覆盖的主题包括：时间递归神经网络、自然语言处理、生成模型、大脑中的深度学习等等。现在全部PPT已经公开，是了解深度学习发展和趋势不可多得的新鲜材料。

蒙特利尔大学的深度学习暑期学校久负盛名，在深度学习领军人物Yoshua Bengio 号召下，每年都聚集了顶尖的深度学习和人工智能方面的学者进行授课。今年的暑期学校更是首次增加了强化学习课程。

深度学习暑期学校

深度神经网络，即学习在多层抽象中表示数据的神经网络，已经极大地提升了语音识别、对象识别、对象检测、预测药物分子活性以及其他许多技术。深度学习通过构建分布式表示（监督学习、无监督学习、强化学习）在大型数据集中发现复杂结构。

深度学习暑期学校（DLSS）面向研究生、工程师和研究人员，要求已经掌握机器学习的一些基本知识（包括深度学习，但不是必须），并希望对这个快速发展的研究领域有更多了解。

今年的 DLSS 由 Graham Taylor，Aaron Courville 和 Yoshua Bengio 组织。

强化学习暑期学校

这是第一届的蒙特利尔大学强化学习暑期学校（RLSS），与 DLSS 是相辅相成的。RLSS 将涵盖强化学习的基础知识，并展示最新的研究趋势和成果，为研究生和该领域的高级研究人员提供互动的机会。

本期强化学习暑期学校面向机器学习及相关领域的研究生。参加者需具有高级计算机科学和数学的先期培训，优先考虑 CIFAR 机器和大脑学习项目研究实验室的学生。

今年的 RLSS 由 Joelle Pineau 和 Doina Precup 组织。

目前，深度学习部分的课程已经结束，官方公开了全部的讲义PPT，今年的深度学习部分的课程内容包括：

蒙特利尔大学 Yoshua Bengio 主讲《循环神经网络》。
谷歌的Phil Blunsom 主讲自然语言处理相关内容，分为两部分《自然语言处理、语言建模和机器翻译》和《自然语言的结构和基础》。
蒙特利尔大学的Aaron Courville 主讲《生成模型》。
谷歌大脑的Hugo Larocelle 主讲《神经网络》。
麦吉尔大学的Doina Precup 主讲《机器学习导论》。
牛津大学的 Mike Osborne主讲《深度学习中的概率数字》。
多伦多大学的 Blake Aaron Richards 主讲《大脑中的深度学习》。

Yoshua Bengio 主讲《时间递归神经网络》：RNN 的 7个小贴士

Bengio 今年主讲的主题是《时间递归神经网络》。在神经网络中，时间递归神经网络模型通过一个递归的更新，从一个固定大小状态的向量中有选择性地对一个输入序列进行提炼。时间递归神经网络能在每一个时间点上产生一个输出。

一个RNN能表征一个全连接的定向生成模型，即，每一个变量都能从根据前序变量进行预测。

他在演讲中介绍了多种类型的RNN：双向RNN、递归网络，多维RNN 等等，根据演讲PPT，用梯度下降学习长依存性是非常困难的。1991年，Bengio在MIT时，所做的研究中的样本实验，只能做到2个类型的序列。

基于梯度的学习为什么很困难？Bengio认为，与短依存相比，长依存所获得的权重过小，指数级的小。由此，从RNN的例子可以看到，梯度消失在深度网络是非常困难的。所以，为了稳定的存储信息，动态性必须进行收缩。

关于 RNN的 7个小贴士：

剪裁梯度（避免梯度的过载）
漏洞融合（推动长期的依存性）
动能（便宜的第二等级）
初始化（在正确的范围开始，以避免过载/消失）
稀疏梯度（对称性破坏）
梯度传播的正则化（避免梯度消失）
门自循环（LSTM&GRU，减少梯度消失）

他在演讲中着重介绍了注意力机制：快速进步的20年：用于记忆权限的注意力机制

神经网络图灵机

记忆网络

使用基于内容的注意力机制来控制记忆的读写权限

注意力机制会输出一个超越记忆位置的Softmax

深度学习中的注意力机制示意图

注意力机制现在在端到端的机器翻译中得到应用，并且获得巨大成功。

设计RNN架构

Bengio 课程全部PPT地址：

https://drive.google.com/file/d/0ByUKRdiCDK7-LXZkM3hVSzFGTkE/view

谷歌Phil Blunsom 主讲自然语言处理

自然语言成为本期蒙特利尔大学深度学习暑期学校的一个重点。

来自谷歌的 Phil Blunsom 在两个报告中分别介绍了《自然语言处理、语言建模和机器翻译》和《自然语言的结构和基础》

本报告中，讲者介绍了语言建模的三种渠道：

通过计算基于 n-gram 的模型，我们用前面的 n 词近似观察词的历史。
在连续的空间中，神经网络的n-gram模型嵌入相同的固定n-gram历史中，进而更好地捕捉不同历史之间的关系。
使用时间递归神经网络，我们终止了固定的n-gram历史，并且将整个历史压缩到固定的长度向量，使得长距离的关联能够被捕捉。

蒙特利尔大学Aaron Courville 主讲：生成模型

CIFAR Fellow、蒙特利尔大学的 Aaron Courville 在这堂课中讲授了生成模型的一些重点。Aaron Courville 不是别人，正是人工智能领域的又一本“圣经级教材”《深度学习》（Deep Learning）一书的第三位作者——剩下两位是 Ian Goodfellow 和 Yoshua Bengio。

我们知道，从模型角度讲，无监督学习分为概率模型和非概率模型。稀疏编码、自编码器和 K-means 都属于非概率模型，而在概率模型中衍生出了两条分支：显式密度模型（Explicitly Density Model）和隐性密度模型（Implicit Density Model），生成对抗网络（GAN）就属于后者。

显式密度模型又分为易解模型（Tractable Model）和难解模型（Non-Tractable Model）。NADE、PixelRNN 都属于可解模型，而玻尔兹曼机（BMV）、变分自编码器（VAE）则属于难解模型。

Courvill 的这堂课内容分成两部分，以PixelCNN 为例讲自回归模型，以及 VAE 和 GAN（包括 WGAN）讲潜变量模型。

谷歌大脑的Hugo Larocelle 主讲神经网络

《神经网络》课程的形式是在线视频讲座，将非常细致地讲解人工神经网络相关知识，内容涵盖：①神经网络是如何从输入x得到预测的f(x)，需要了解前向传播、神经元的类型；②怎样基于数据训练一个神经网络（分类器），需要了解损失函数、反向传播、梯度下降算法、训练的一些技巧等；③深度学习：无监督预训练、dropout、批标准化等。

麦吉尔大学的 Doina Precup 主讲机器学习导论

本讲介绍了机器学习的一些问题类型，以及线性逼近器、误差函数/目标函数机器优化方法、偏差方差折衷，过拟合和欠拟合、线性估计器的L2和L1正则化、正则化的贝叶斯解释，以及逻辑回归。机器学习问题的类型包括监督学习，强化学习和无监督学习，本讲课程以人脸检测和识别、TD-Gammon、肿瘤检测等作为实例分别讲解，并介绍解决这些问题类型的步骤和可用方法。

牛津大学的 Mike Osborne主讲深度学习中的概率数字

多伦多大学的 Blake Aaron Richards 主讲大脑中的深度学习

我们的感知、动作和记忆从何而来？从我们神经系统中神经元的活动而来。人脑里有着几十亿大脑神经元，这些神经元彼此之间的突触连接，还有这些连接强度的精确调谐，使这个地球上最复杂神秘的生理学功能成为可能。

但是，这些连接并不是由人类基因组所决定的。无论是昆虫还是人类，神经元的连接都是后天形成的，动物会使用从感官和运动经验中得到的信息来塑造神经元之间的突触连接。

CIFAR Associate Fellow，Blake Richards 的研究领域是神经生理学、系统神经科学和计算神经科学。计算神经科学通过在对神经系统建模和分析的过程中应用计算的方法和观念，整合各种对神经系统进行模拟的尝试性工作。这当中，会使用机器学习方法和应用数学解答神经科学问题。

Richards 在深度学习暑期学校讲的课题很有意思——《大脑里的深度学习》。人工神经网络本来就模仿了很多人类神经网络的概念，Deep learning本身就是做计算神经学的的人发明的。因此大脑里也会用到深度学习并不奇怪。Richards 介绍了当前的深度学习研究在真实大脑里的潜在应用。具体说，主要是反向传播（Backpropagation）。

在算法和数学公式推导中，体会大脑里的深度学习。

全部讲义下载

Bengio - Recurrent Neural Networks（下载：http://t.cn/RoD3NZY）

Phil Blunsom - Natural Language Processing, Language Modelling and Machine Translation （下载：http://t.cn/RoD3R3Y）

Blunsom - Structure and Grounding in Natural Language（下载：http://t.cn/RoD3dLy）

Courville - Generative Models II（下载：http://t.cn/RoD1hiV）

Larochelle - Neural Networks 1（下载：http://t.cn/RoD1LR2）

Larochelle - Neural Networks 2（下载：http://t.cn/RoD15cy）

Osborne - Future_of_Work_DLSS（下载：http://t.cn/RoD1Mpq）

Osborne - PN_BO_DLSS（下载：http://t.cn/RoD1a8C）

Precup - dlss-intro-2017（下载：http://t.cn/RoD1pfi）

Richards - Deep_Learning_in_the_Brain（下载：http://t.cn/RoD1QaZ）