一步步教你理解LSTM

作者:王千发

编辑:田 旭

什么是LSTM

1

LSTM全名是Long Short-Term Memory,长短时记忆网络,可以用来处理时序数据,在自然语言处理和语音识别等领域应用广泛。和原始的循环神经网络RNN相比,LSTM解决了RNN的梯度消失问题,可以处理长序列数据,成为当前最流行的RNN变体。

LSTM应用举例

2

假设我们的模型的输入是依次输入一句话的每个单词,我们需要对单词做分类,比如有两句话:(1)arrive Beijing on November 2nd,这里的Beijing是目的地;(2)leave Beijing on November 2nd,这里的Beijing是出发地。如果用普通的神经网络,输入是'Beijing',那么输出一定就是确定的,但事实上我们希望在'Beijing'前面是'arrive'时,'Beijing'被识别为目的地,在'Beijing'前面时'leave'时,'Beijing'被识别为出发地。这里LSTM就会派上用场,因为LSTM可以记住历史信息,在读到'Beijing'时,LSTM还知道在前面是'arrive'还是'leave',根据历史信息来做出不同的判断,即使输入是相同的,输出也会不同。

LSTM结构剖析

3

普通的神经元是一个输入,一个输出,如图所示:

对于神经元h1来讲,输入就是x1,输出就是y1,LSTM做的就是把普通的神经元,替换成LSTM的单元。

从图中可以看到LSTM有四个输入,分别是input(模型输入),forget gate(遗忘门),input gate(输入门),以及output gate(输出门)。因此相比普通的神经网络,LSTM的参数量是它们的4倍。这3个门信号都是处于0~1之间的实数,1代表完全打开,0代表关闭。遗忘门:决定了前一时刻中memory中的是否会被记住,当遗忘门打开时,前一刻的记忆会被保留,当遗忘门关闭时,前一刻的记忆就会被清空。输入门:决定当前的输入有多少被保留下来,因为在序列输入中,并不是每个时刻的输入的信息都是同等重要的,当输入完全没有用时,输入门关闭,也就是此时刻的输入信息被丢弃了。输出门:决定当前memroy的信息有多少会被立即输出,输出门打开时,会被全部输出,当输出门关闭时,当前memory中的信息不会被输出。

LSTM公式推导

4

有了上面的知识,再来推导LSTM的公式就很简单了,图中

代表遗忘门,

代表输入门,

代表输出门。C是memroy cell,存储记忆信息。

代表上一时刻的记忆信息,

代表当前时刻的记忆信息,h是LSTM单元的输出,

是前一刻的输出。

遗忘门计算:

这里的

是把两个向量拼接起来的意思,用sigmoid函数主要原因是得到有个0~1之间的数,作为遗忘门的控制信号。

输入门计算:

当前输入:

当前时刻的记忆信息的更新:

从这个公式可以看出,前一刻的记忆信息

通过遗忘门

,当前时刻的输入

通过输入门

,加起来更新当前的记忆信息

输入门计算:

LSTM的输出,是由输出门和当前记忆信息共同决定的:

这样我们就明白了LSTM的前向计算过程。有了LSTM前向传播算法,推导反向传播算法就很容易了, 通过梯度下降法迭代更新我们所有的参数,关键点在于计算所有参数基于损失函数的偏导数,这里就不细讲了。

小结

5

LSTM虽然结构复杂,但是只要理顺了里面的各个部分和之间的关系,是不难掌握的。在实际使用中,可以借助算法库如Keras,PyTorch等来搞定,但是仍然需要理解LSTM的模型结构。

参考文献

  1. https://www.youtube.com/watch?v=rTqmWlnwz_0&index=35&list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49
  2. https://zybuluo.com/hanbingtao/note/581764
  3. http://www.cnblogs.com/pinard/p/6519110.html
  4. http://blog.echen.me/2017/05/30/exploring-lstms/

原文发布于微信公众号 - 机器学习算法全栈工程师(Jeemy110)

原文发表时间:2017-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏月色的自留地

图像识别基本算法之SURF

1448
来自专栏用户2442861的专栏

SIFT算法详解

如果你学习SIFI得目的是为了做检索,也许 OpenSSE 更适合你,欢迎使用。

761
来自专栏PPV课数据科学社区

重要的机器学习算法

关键词:机器学习,算法 正文: 本文旨在为那些获取关于重要机器学习概念知识的人们提供一些机器学习算法,同时免费提供相关的材料和资源。并且附上相关算法的程序实现...

2696
来自专栏机器学习专栏

机器学习:基于层次的聚类算法

尽管基于划分的聚类算法能够实现把数据集划分成指定数量的簇,但是在某些情况下,需要把数据集划分成不同层上的簇:比如,作为一家公司的人力资源部经理,你可以把所有的雇...

3.6K1
来自专栏机器学习算法全栈工程师

数据挖掘中的利器--XGBoost理论篇

XGBoost是各种数据挖掘或机器学习算法类比赛中每个团队都会使用且精度相对最好的算法之一(Deep Learning算法除外)。也就是说,对于刚转向机器学习领...

3979
来自专栏Petrichor的专栏

论文阅读: R-FCN

由上表易知,R-FCN就是为了 解决 不共享的proposal处理过程 而诞生的。

1133
来自专栏WD学习记录

LSTM

引入自循环的巧妙思想,以产生梯度长时间持续流动的路径是初始长短期记忆(long short-term memory,LSTM)模型的核心贡献。其中一个关键扩展是...

572
来自专栏鹅厂优文

游戏人工智能 读书笔记 (六) AI算法简介——演化算法

Chapter 2.8 Hybrid Algorithm: Neuroevolution

2279
来自专栏瓜大三哥

图像分割(二)

图像分割(二) 之基于边缘分割 所谓边缘是指图像中两个不同区域的边界线上连续的像素点的集合,是图像局部特征不连续的反应,体现了灰度、颜色、纹理等图像特性的突变。...

1937
来自专栏小樱的经验随笔

【机器学习笔记之一】深入浅出学习K-Means算法

摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 ...

2629

扫码关注云+社区