（数据科学学习手札39）RNN与LSTM基础内容详解

原创

Feffery

发布于 2018-06-03 21:57:16

8820

发布于 2018-06-03 21:57:16

一、简介

　　循环神经网络（recurrent neural network，RNN），是一类专门用于处理序列数据（时间序列、文本语句、语音等）的神经网络，尤其是可以处理可变长度的序列；在与传统的时间序列分析进行比较的过程之中，RNN因为其梯度弥散等问题对长序列表现得不是很好，而据此提出的一系列变种则展现出很明显的优势，最具有代表性的就是LSTM（long short-term memory），而本文就从标准的循环神经网络结构和原理出发，再到LSTM的网络结构和原理，对其有一个基本的认识和阐述；

二、关于基本的RNN

基本结构：

　　循环神经网络又叫递归神经网络，因为其向前传播过程中折叠了一个循环计算的重复结构，这里我们先观察一个经典的动态系统，即：

其中s(t)为系统在t时刻的状态，和传统时间序列分析中的模型类似，在有限时间步τ的条件下，经过τ-1次上述展开过程就可以完全展开这个有限时间步内的过程，以τ=3为例：

上述过程可以用图论中的有向无环计算图来表示：

每一个时刻的状态都经由函数f映射到下一个时刻，而这是仅有自我状态驱动的系统，我们再考虑引入外部信号x(t)的系统：

即对于一个序列，其当前状态包含了过去所有时刻状态对其的影响，以及当前时刻外部信号的影响，我们的循环神经网络就是建立在上述知识的基础上，因为RNN中的状态即是网络的隐藏单元，我们用h来重新定义上式：

则一个最简单典型的RNN架构如下（未包含输出层部分），左边是循环计算部分未展开的结构，右边是展开后的结构：

其中左边的黑色方块表示单个时间步的延迟，可以类比时间序列分析中的n阶延迟，接着我们添加上输出层以及不同层之间的连接权信息，便得到下面这张经典RNN的结构示意图：

由上图，在这个将输入序列x映射到输出值o的过程中，层与层之间通过连接权进行映射，并在功能神经元内部进行激活（通常是tanh激活函数），其中在分类任务时，h到o的映射由softmax完成，接着与真实的label，即y进行比较计算出损失L，总结一下经典RNN结构的特点；

　　1、每个时间步完成后都有输出，且时间步之间有按照时序顺序的循环连接，这也决定了RNN的向后传播过程不同于传统BP算法可以并行，RNN在一个未展开的时间步内部只能按顺序调整参数，即通过时间反向传播算法（back-propagation through time，BPTT）；

　　2、不同的任务决定了不同的输出方式，如翻译就是序列到序列，分类或时序预测就是在最后一次得到输出；

　　3、参数共享

前向传播：

　　在输出为离散的情况下，上述经典RNN的前向传播过程如下：

　　1、时刻t的隐藏状态h(t)：

　　2、时刻t的输出o(t)：

　　3、时刻t的预测类别输出：

　　4、损失函数，离散分类任务时通常为对数似然函数，连续预测任务通常是均方误差：

三、关于LSTM

　　RNN在实际使用过程中，在处理较长序列输入时，难以传递相隔较远的信息，究其原因，我们先回想一下RNN的基本结构，其真正的输入有两部分——来自序列第t个位置的输入xt，和来自上一个隐层的输出ht-1，考虑隐层的信息往后传导的过程，这里令RNN中隐层连接下一个时刻隐层的权重为Whh，不考虑每一次隐层的非线性激活时，从初始状态h0到第t时刻状态ht，其信息传递的过程如下，其中对Whh的连乘部分做了特征分解：