一步步教你理解LSTM

作者:王千发

编辑:田 旭

什么是LSTM

1

LSTM全名是Long Short-Term Memory,长短时记忆网络,可以用来处理时序数据,在自然语言处理和语音识别等领域应用广泛。和原始的循环神经网络RNN相比,LSTM解决了RNN的梯度消失问题,可以处理长序列数据,成为当前最流行的RNN变体。

LSTM应用举例

2

假设我们的模型的输入是依次输入一句话的每个单词,我们需要对单词做分类,比如有两句话:(1)arrive Beijing on November 2nd,这里的Beijing是目的地;(2)leave Beijing on November 2nd,这里的Beijing是出发地。如果用普通的神经网络,输入是'Beijing',那么输出一定就是确定的,但事实上我们希望在'Beijing'前面是'arrive'时,'Beijing'被识别为目的地,在'Beijing'前面时'leave'时,'Beijing'被识别为出发地。这里LSTM就会派上用场,因为LSTM可以记住历史信息,在读到'Beijing'时,LSTM还知道在前面是'arrive'还是'leave',根据历史信息来做出不同的判断,即使输入是相同的,输出也会不同。

LSTM结构剖析

3

普通的神经元是一个输入,一个输出,如图所示:

对于神经元h1来讲,输入就是x1,输出就是y1,LSTM做的就是把普通的神经元,替换成LSTM的单元。

从图中可以看到LSTM有四个输入,分别是input(模型输入),forget gate(遗忘门),input gate(输入门),以及output gate(输出门)。因此相比普通的神经网络,LSTM的参数量是它们的4倍。这3个门信号都是处于0~1之间的实数,1代表完全打开,0代表关闭。遗忘门:决定了前一时刻中memory中的是否会被记住,当遗忘门打开时,前一刻的记忆会被保留,当遗忘门关闭时,前一刻的记忆就会被清空。输入门:决定当前的输入有多少被保留下来,因为在序列输入中,并不是每个时刻的输入的信息都是同等重要的,当输入完全没有用时,输入门关闭,也就是此时刻的输入信息被丢弃了。输出门:决定当前memroy的信息有多少会被立即输出,输出门打开时,会被全部输出,当输出门关闭时,当前memory中的信息不会被输出。

LSTM公式推导

4

有了上面的知识,再来推导LSTM的公式就很简单了,图中代表遗忘门,代表输入门,代表输出门。C是memroy cell,存储记忆信息。代表上一时刻的记忆信息,代表当前时刻的记忆信息,h是LSTM单元的输出,是前一刻的输出。

遗忘门计算:

这里的是把两个向量拼接起来的意思,用sigmoid函数主要原因是得到有个0~1之间的数,作为遗忘门的控制信号。

输入门计算:

当前输入:

当前时刻的记忆信息的更新:

从这个公式可以看出,前一刻的记忆信息通过遗忘门,当前时刻的输入通过输入门,加起来更新当前的记忆信息。

输入门计算:

LSTM的输出,是由输出门和当前记忆信息共同决定的:

这样我们就明白了LSTM的前向计算过程。有了LSTM前向传播算法,推导反向传播算法就很容易了, 通过梯度下降法迭代更新我们所有的参数,关键点在于计算所有参数基于损失函数的偏导数,这里就不细讲了。

小结

5

LSTM虽然结构复杂,但是只要理顺了里面的各个部分和之间的关系,是不难掌握的。在实际使用中,可以借助算法库如Keras,PyTorch等来搞定,但是仍然需要理解LSTM的模型结构。

参考文献

https://www.youtube.com/watch?v=rTqmWlnwz_0&index=35&list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49

https://zybuluo.com/hanbingtao/note/581764

http://www.cnblogs.com/pinard/p/6519110.html

http://blog.echen.me/2017/05/30/exploring-lstms/

机器学习算法全栈工程师

一个用心的公众号

进群,学习,得帮助

你的关注,我们的热度,

我们一定给你学习最大的帮助

公众号商务合作请联系

本文来自企鹅号 - 燕哥带你学算法媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏杨熹的专栏

TensorFlow-10-基于 LSTM 建立一个语言模型

今日资料: https://www.tensorflow.org/tutorials/recurrent 中文版: http://wiki.jikexue...

5396
来自专栏ATYUN订阅号

词序:神经网络能按正确的顺序排列单词吗?

当学习第二语言时,最困难的挑战之一可能是熟悉单词顺序。词序在机器翻译中也很重要,因为翻译大致上是一种处理目标语言词汇的过程,它与源语言是对等的。也许你已经做过一...

3514
来自专栏磐创AI技术团队的专栏

实用 | 分享一个决策树可视化工具

【磐创AI导读】:这篇文章希望跟大家分享一个可视化决策树或者随机森林的工具。这可以帮助我们更好的去理解或解释我们的模型。想要获取更多的机器学习、深度学习资源。欢...

2371
来自专栏Python小屋

Python使用tensorflow中梯度下降算法求解变量最优值

TensorFlow是一个用于人工智能的开源神器,是一个采用数据流图(data flow graphs)用于数值计算的开源软件库。数据流图使用节点(nodes)...

3588
来自专栏码洞

人工不智能之sklearn聚类

线性回归是一种有监督算法,提供了输入数据x和参考目标值y,参考目标提供了一种纠错机制,是对预测结果y_的监督,如果y和y_相差过大,说明拟合的模型可能存在问题。...

661
来自专栏机器之心

资源 | 从VGG到ResNet,你想要的MXNet预训练模型轻松学

2644
来自专栏编程

关于反向传播在Python中应用的入门教程

我来这里的目的是为了测试我对于Karpathy的博客《骇客的神经网络指导》以及Python的理解,也是为了掌握最近精读的Derek Banas的文章《令人惊奇的...

2127
来自专栏人工智能LeadAI

简易的深度学习框架Keras代码解析与应用

总体来讲keras这个深度学习框架真的很“简易”,它体现在可参考的文档写的比较详细,不像caffe,装完以后都得靠技术博客,keras有它自己的官方文档(不过是...

7107
来自专栏计算机视觉战队

论文阅读——Selective Search for Object Recognition

今天认真把Selective Search for Object Recognition这篇文章阅读完,想来写写自己的见解与想法。如果有错,希望得到大牛们的指点...

32910
来自专栏人工智能头条

Azure Machine Learning 上如何选择合适的机器学习算法

1506

扫码关注云+社区

领取腾讯云代金券