深度学习算法原理——LSTM

felixzhao

发布于 2020-09-22 11:21:32

3.1K0

发布于 2020-09-22 11:21:32

文章被收录于专栏：null的专栏

1. 概述

在循环神经网络RNN一文中提及到了循环神经网络RNN存在长距离依赖的问题，长短期记忆（Long Short-Term Memory，LSTM）网络便是为了解决RNN中存在的梯度爆炸的问题而提出。在LSTM网络中，主要依靠引入“门”机制来控制信息的传播。

2. 算法原理

2.1. LSTM的网络结构

LSTM的网络结构如下所示（图片来自参考文献）：

与循环神经网络RNN相比，LSTM的网络结构要复杂的多。

在LSTM网络中，通过引入三个门来控制信息的传递，这三个门分别为遗忘门（forget gate），输入门（input gate）和输出门（output gate）。门机制是LSTM中重要的概念，那么什么是“门”以及门机制在LSTM中是如何解决长距离依赖的问题的。

2.2. 门机制

现实中的“门”通常解释为出入口，在LSTM网络的门也是一种出入口，但是是控制信息的出入口。门的状态通常有三种状态，分别为全开（信息通过概率为1），全闭（信息通过概率为0）以及半开（信息通过概率介于0和1之间）。在这里，我们发现对于全开，全闭以及半开三种状态下的信息通过可以通过概率来表示，在神经网络中，sigmoid函数也是一个介于0和1之间的表示，可以应用到LSTM中门的计算中。