机器之心「GMIS 2017」嘉宾揭秘:LSTM之父Jürgen Schmidhuber

2017 全球机器智能峰会(GMIS 2017),让我们近距离接触「LSTM 之父」Jürgen Schmidhuber。

2017 全球机器智能峰会(GMIS 2017)是由机器之心主办的全球人工智能盛会,将于 5 月 27 日至 28 日在北京 898 创新空间举行。本次大会将邀请海内外众多嘉宾及机构,权威、系统地介绍机器智能相关技术的前沿研究,探讨如何将技术转化成产品和应用等问题。

接下来,我们将逐一揭晓多位重磅嘉宾,今天带来的是被誉为 LSTM 之父的 Jürgen Schmidhuber。

LSTM 的研究意义有多大?我们从语音识别近年来的发展中可看出来。2015 年时,谷歌的研究人员使用 LSTM 减少了 49% 的语音识别错误,这是一个飞跃性进步。而后,众多语音识别方面的研究都会借助 LSTM 的概念,语音识别技术也成为人工智能领域商业化最快的技术之一。除了语音之外,LSTM 对最近视觉领域的快速进展也起到了关键作用。

作为 RNN 的一种变体,LSTM 的优势何在?之前 DeepLearning4j 授权机器之心发布的一篇有过详细的讲解,接下来我们从技术角度了解一下 LSTM。

LSTM 的优势

LSTM 是 Sepp Hochreiter 和 Jürgen Schmidhuber 在上世纪九十年代中期提出的,它可以解决梯度消失的问题,这一问题是影响 RNN 表现的重大障碍。

LSTM 还可保留误差,用于沿时间和层进行反向传递。LSTM 将误差保持在更为恒定的水平,让 RNN 能够进行许多个时间步的学习(超过 1000 个时间步),从而打开了建立远距离因果联系的通道。

LSTM 将信息存放在递归网络正常信息流之外的门控单元中。这些单元可以存储、写入或读取信息,就像计算机内存中的数据一样。单元通过门的开关判定存储哪些信息,以及何时允许读取、写入或清除信息。但与计算机中的数字式存储器不同的是,这些门是模拟的,包含输出范围全部在 0~1之间的 sigmoid 函数的逐元素相乘操作。相比数字式存储,模拟值的优点是可微分,因此适合反向传播。

这些门依据接收到的信号而开关,而且与神经网络的节点类似,它们会用自有的权重集对信息进行筛选,根据其强度和导入内容决定是否允许信息通过。这些权重就像调制输入和隐藏状态的权重一样,会通过递归网络的学习过程进行调整。也就是说,记忆单元会通过猜测、误差反向传播、用梯度下降调整权重的迭代过程学习何时允许数据进入、离开或被删除。

下图显示了数据在记忆单元中如何流动,以及单元中的门如何控制数据流动。

首先,最底部的三个箭头表示信息从多个点流入记忆单元。当前输入与过去的单元状态不只被送入记忆单元本身,同时也进入单元的三个门,而这些门将决定如何处理输入。

图中的黑点即是门,分别决定何时允许新输入进入,何时清除当前的单元状态,以及/或何时让单元状态对当前时间步的网络输出产生影响。S_c 是记忆单元的当前状态,而 g_y_in 是当前的输入。记住,每个门都可开可关,而且门在每个时间步都会重新组合开关状态。记忆单元在每个时间步都可以决定是否遗忘其状态,是否允许写入,是否允许读取,相应的信息流如图所示。

图中较大的黑体字母即是每项操作的结果。

下面是另一张图,将简单 RNN(左)与 LSTM 单元(右)进行对比。蓝线可忽略;图例有助理解。

应当注意的是,LSTM 的记忆单元在输入转换中给予加法和乘法不同的角色。两张图中央的加号其实就是 LSTM 的秘密。虽然看起来异常简单,这一基本的改变能帮助 LSTM 在必须进行深度反向传播时维持恒定的误差。LSTM 确定后续单元状态的方式并非将当前状态与新输入相乘,而是将两者相加,这正是 LSTM 的特别之处。(当然,遗忘门依旧使用乘法。)

不同的权重集对输入信息进行筛选,决定是否输入、输出或遗忘。遗忘门的形式是一个线性恒等函数,因为如果门打开,则记忆单元的当前状态就只会与 1 相乘,正向传播一个时间步。

此外,讲到简单的窍门,将每个 LSTM 单元遗忘门的偏差设定为 1,经证明可以提升网络表现。

LSTM 有多火?我们可用以下图表展示。据 Semantic Scholar 的数据显示,在过去的两年里《Long Short-Term Memory》一文的引用量激增。

LSTM 之父 Jürgen Schmidhuber

我们都知道,无论在哪个领域,开创新技术的人会成为明星。比如,Geoffrey Hinton 因为在深度学习的开创性研究加入谷歌;Sebastian Thrun 是谷歌自动驾驶汽车的奠基人;Yann LeCun,因为对卷积神经网络的推动而被请到了到 Facebook,成为这家科技巨头的研究领军人物。作为 LSTM 的开创者之一,Jürgen Schmidhuber 为何名声不显呢?

在之前约翰·马尔科夫采访 Jürgen Schmidhuber 的文章中,他把这归因于 Schmidhuber 的不幸——他的时代太早了,在计算机硬件性能足够处理这些算法之前。也是在近年来,LSTM 才开始流行起来。

现年 54 岁的 Jürgen Schmidhuber 是瑞士人工智能实验室 IDSIA 的科学事务主管。

在采访中,Jürgen Schmidhuber 曾表示他自 1987 年以来一直引领着自我改进式(self-improving)通用问题求解程序(problem-solver)的研究。从 1991 年开始,他成为深度学习神经网络领域的开拓者,6 年后他和另一作者提出 LSTM。

为何说 Jürgen Schmidhuber 是一位重量级人工智能研究者?我们接下来从学术影响力以及带领的研究团队对其进行介绍。

我们使用 Semantic Scholar 生成了 Jürgen Schmidhuber 的学术影响力图,他与 Geoffrey Hinton、Yann LeCun、Yoshua Bengio 等人工智能领域内的顶级学者都有着极大的影响力关联。

过去三年,Jürgen Schmidhuber 论文年均被引用数量为 4133 次。

在国际性比赛上,Jürgen Schmidhuber 带领下的团队也有着惊人的成绩,在多个领域创造了第一。比如其「Deep Learners」是第一个赢得物体识别和图像分割竞赛的冠军,也创造了世界首个超常视觉分类成绩,在 9 项国际性的机器学习和模式识别领域获得冠军。

值得一提得是 DeepMind 与 IDSIA 实验室的渊源。在 DeepMind 最早的四个成员中有两个是从 IDSIA 获得的博士学位,其中一个是联合创始人,另一个是公司的第一名员工。之后,Jürgen Schmidhuber 也有其他的博士学生稍后加入了 DeepMind。

有趣的一点是 Jürgen Schmidhuber 和 DeepMind 创始人 Demis Hassabis 有共同的人工智能愿景——通用人工智能。去年年初《卫报》对 Demis Hassabis 深度专访中,他提到自己将和 DeepMind 继续朝着「创造解决世界上一切问题的通用人工智能」的目标前进。

而在 2014 年,Jürgen Schmidhuber 也联合创建了 NNAISENSE,公司的目标是构建实用化的通用人工智能系统。今年 1 月份,NNAISENSE 成功获得了 A 轮融资。

参考文献:

重磅 | 专访深度学习元老Jürgen Schmidhuber:这个实验室如何孕育DeepMind

深度 | LSTM之父Jürgen Schmidhuber为何名声不显?

访谈 | Jürgen Schmidhuber:人工智能在1991年就已经获得了「意识」

深度 | LSTM 和递归网络基础教程

想了解 Jürgen Schmidhuber 的更多精彩分享?他将在 GIMS 2017 现场等你!

「2017 全球机器智能峰会(GMIS 2017)是由机器之心主办的关注全球人工智能及相关领域的行业盛会,将于 5 月 27 日至 28 日在北京 898 创新空间举行。在此次大会上 Jürgen Schmidhuber 将会为大家分享更多有关技术、研究等方面的精彩内容。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-03-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

【图说】数据可视化在美国大选中的应用

美国总统并不是按一人一票选出,而是每个州有不同数量的选举人票,如果这个州大多数人投票选这个党派,则整个州的选举人票都被这个党派得到。选举人票数量跟那个州的面积人...

36611
来自专栏机器人网

无人机用陀螺仪的数据处理

1 陀螺仪数据校准 1.1 原理 一款飞控上的传感器是需要进行校准的,比如这里讲的陀螺仪。目前大多数的陀螺校准其实就是去掉零点偏移量,采集一定的数据,求平均,...

6736
来自专栏新智元

一文看懂系列之深入理解 RNN——神经图灵机(附代码)

【新智元导读】RNN无疑是深度学习的主要内容之一,增强型RNN大致可以分为四种,本文介绍第一种:神经图灵机。 背景介绍 在写《深度学习与神经科学相遇》的过程中开...

4137
来自专栏java一日一条

细数20世纪最伟大的10大算法

[1946: John von Neumann, Stan Ulam, and Nick Metropolis, all at the Los Alamos S...

1061
来自专栏数说工作室

异常值检测

之前发过一篇讨论文章——异常值怎么整。 在原文评论区里(戳此→异常值怎么整?| 讨论)得到了各位大大的指教,数说君也受益匪浅,现在整理一下供大家参考: 聚类 ...

3455
来自专栏龙行天下CSIEM

科学瞎想系列之五十 场是个神马鬼

无论你信与不信,它无时无刻不存在着; 无论你用与不用,它无时无刻不作用着; 无论你懂与不懂,它无时无刻不影响着。 ...

3054
来自专栏Vamei实验室

线性代数01 线性的大脑

作者:Vamei 出处:http://www.cnblogs.com/vamei 严禁任何形式转载。

1533
来自专栏AI科技大本营的专栏

AI 技术讲座精选:数学不好,也可以学习人工智能(四)——图解张量

【AI100 导读】本文是《数学不好,也可以学习人工智能》系列的第四篇文章,主要内容围绕 Tensors(张量)展开。 ? 现在的你是否已经下载好 Tensor...

4846
来自专栏数据小魔方

R语言构建层次分析模型不看一下吗~

AHP (Analytic Hierarchy Process)层次分析法是美国运筹学家Saaty教授于二十世纪80年代提出的一种实用的多方案或多目标的决策方法...

1752
来自专栏大数据挖掘DT机器学习

解析滴滴算法大赛---GBDT进行数据预测

按照前面文章的方法进行数据预测,完全不使用POI,天气,交通情况的数据,可以达到0.43的成绩。 不过如果想要获得更好的成绩,简单的预测方法显然无法满足要求了。...

1.4K10

扫码关注云+社区

领取腾讯云代金券