【算法】循环神经网络RNN

陆勤_数据人网

发布于 2018-04-18 16:57:45

1.3K0

发布于 2018-04-18 16:57:45

文章被收录于专栏：数据科学与人工智能

小编邀请您，先思考：

1 RNN和LSTM有什么异同？

2 RNN的输入和输出分别是什么？

3 如何用Python实现RNN？

传统的机器学习方法，如SVM、logistics回归和前馈神经网络都没有将时间进行显式模型化，用这些方法来建模都是基于输入数据独立性假设的前提。但是，对于很多任务而言，这非常局限。举个例子，假如你想根据一句没说完的话，预测下一个单词，最好的办法就是联系上下文的信息。下面有两种解决方案

1.一种思路是记忆之前的分类器的状态，在这个基础上训练新的分类器，从而结合历史影响，但是这样需要大量历史分类器

2.重用分类器，只用一个分类器总结状态，其他分类器接受对应时间的训练，然后传递状态,这样就避免了需要大量历史分类器，而且还比较有效的解决了这个问题。而这样一种东西是什么呢？没错，就是 RNN(循环神经网络)

RNN 之所以称为循环神经网路，是因为一个序列当前的输出与前面的输出有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，也就是说隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

下面是一个典型的RNN模型：

研究一下模型的输入和输出。以输入句子为例，输入的句子中第t个单词进行Embedding之后的向量表达作为网络t时刻的输入，而输入层神经元个数和Embedding的向量长度相符。每个时刻的输出是一个概率分布向量，其中最大值的下标决定了输出哪个词。如果输入的序列中有4个单词，那么，横向展开网络后将有四个神经网络，一个网络对应一个单词，即RNN是在time_step上进行拓展。

下面解释一下图中的计算公式：

· Xt是在时刻t时的输入。例如，X2对应于一个句子的第二个词的实数向量。

· St是在时刻t时的隐藏状态，类似于网络的“大脑”，也就是“记忆模块”的值。St的运算是基于以前隐藏状态St-1和当前的输入Xt决定，其中，f通常是非线性的，例如，tanh、ReLU函数。在计算第一个隐藏状态时，初始值通常设为0。

· Ot是时刻t时的输出结果。如推测句子中的下一个词时，这里的输出就可以表示为一个词典序列，值为每一个词的概率。

需要注意的是：

1. RNN是在时间上共享参数。这意味着这个模型在每个时间步上对输入的处理是一样的，只是输入不同。这样的方式大幅降低了需要学习的参数总数，减少了很多计算量。深度学习是怎么减少参数的，很大原因就是参数共享，其中像CNN 是在空间上共享参数，RNN 是在时间上（顺序上）共享参数。

2. 在上面的图片中显示，不同的时间节点会产生不同的结构输出。但是，不同任务中，有一些输出则是多余的。例如，在情感分析里，我们只关心这个句子最终表达的情绪，而不是每一个单词表达的情绪。同样的，也不是必须得在每一个时间点都有输入。

这就产生了RNN的不同架构，下面是几种RNN 组成的常用架构。

1是普通的单个神经网络，2是把单一输入转化为序列输出，3是把序列输入转化为单个输出，4是把序列转化为序列，也就是 seq2seq的做法，5是无时差的序列到序列转化，可以作为普通的语言模型。

下面再说说几个比较重要的架构：

One to many：

这种情况有两种方式，一种是只在序列开始进行输入计算。

还有一种结构是把输入信息 x 作为每个阶段的输入：

这种one to many的结构可以处理的问题有挺多的，比如图片标注，输入的 x 是图像的特征，而输出的y序列是一段句子或者从类别生成语音或音乐。

may to one

输入是一个序列，输出是一个单独的值而不是序列。这种结构通常用来处理序列分类问题。如输入一段文字判别它所属的类别，输入一个句子判断其情感倾向，输入一段文档并判断它的类别等等。具体如下图：

N to N

输入和输出序列是等长的。这种可以作为简单的Char RNN 可以用来生成文章，诗歌，甚至是代码，非常有意思）。

N to M

这种结构又叫 Encoder-Decoder 模型，也可以称之为 Seq2Seq 模型。在实现问题中，我们遇到的大部分序列都是不等长的，如机器翻译中，源语言和目标语言的句子往往并没有相同的长度。而 Encoder-Decoder 结构先将输入数据编码成一个上下文向量c，之后在通过这个上下文向量输出预测序列。

注意，很多时候只用上下文向量 C 效果并不是很好，而 attention 技术很大程度弥补了这点。seq2seq的应用的范围非常广泛，机器翻译，文本摘要，阅读理解，对话生成....。

再来看看训练算法BPTT

如果将 RNN 进行网络展开，那么参数 W,U,V 是共享的，且在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，并且还用前面若干步网络的状态。比如，在t=4时，我们还需要向后传递三步，以及后面的三步都需要加上各种的梯度。该学习算法称为Backpropagation Through Time (BPTT)。需要注意的是，在普通 RNN 训练中，BPTT 无法解决长时依赖问题(即当前的输出与前面很长的一段序列有关，一般超过十步就无能为力了)，因为 BPTT会带来所谓的梯度消失或梯度爆炸问题(the vanishing/exploding gradient problem)。当然，有很多方法去解决这个问题，如 LSTM、GRU便是专门应对这种问题的。下面详细介绍一下BPTT。

考虑最前面介绍的RNN网络结构。

将损失函数定义为交叉熵损失函数：

这里，我们将一个完整的句子序列视作一个训练样本，因此总误差即为各时间步（单词）的误差之和。

我们的目的是要计算误差对应的参数U、V和W的梯度，然后借助SGD算法来更新参数。借助导数的链式法则来计算梯度，从最后一层将误差向前传播的思想。

误差函数E对参数V的求导与输入的序列特性没有关系。但是，对参数W的求导则不同。最后可以化成：

可以从这张图直观了解BPTT。

前面就提到BPTT容易带来梯度消失或梯度爆炸的问题，可以从下图直观看出。

我们看看梯度消失的情况，梯度值迅速以指数形式收缩，最终在几个时间步长后完全消失。“较远”的时间步长贡献的梯度变为0，这些时间段的状态不会对你的学习有所贡献：你最终还是无法学习长期依赖。梯度消失不仅存在于循环神经网络，也出现在深度前馈神经网络中。区别在于，循环神经网络非常深（本例中，深度与句长相同），因此梯度消失问题更为常见。RNN的梯度是非常不稳定的，所以梯度在损失表面的跳跃度是非常大的，也就是说优化程序可能将最优值带到离真实最优值很远的地方。

幸运的是，目前有一些方法可解决梯度消失问题。合理初始化矩阵W可缓解梯度消失现象，还可采用正则化方法。此外，更好的方法是使用 ReLU，而非tanh或sigmoid激活函数（梯度消失有一部分原因是因为激活函数一些性质造成的）。ReLU函数的导数是个常量，0或1，因此不太可能出现梯度消失现象。

更常用的方法是借助LSTM或GRU架构。1997年，首次提出LSTM，目前该模型在NLP领域的应用极其广泛。GRU则于2014年问世，是LSTM的简化版。这些循环神经网络旨在解决梯度消失和有效学习长期依赖问题。

先来看看LSTM。

LSTM通过引入一个叫做“门”（gating）的机制来缓解梯度消失问题。首先，我们要注意LSTM层仅仅是计算隐藏层的另一种方式。

在传统的RNN中，我们用S_t = tanh(Ux_t + Ws_)这个式子来计算隐藏层。其中，隐藏层的输入单元有两个，一个是当前时刻t的输入x_t以及前一时刻的隐藏状态s_。LSTM单元的功能与之相同，只是方式不同而已。这是理解LSTM的关键。你基本上可将LSTB（和GRU）单元视为黑匣子，只要你给定当前输入和前一时刻的隐藏状态，便可计算出下一隐藏状态。如下图：