导语
PaddlePaddle 高度支持灵活和高效的循环神经网络配置。本周进阶篇推文将围绕RNN模型展开,指导你如何在 PaddlePaddle 中配置和使用循环神经网络。本周推文目录如下:
2.11:【进阶篇】RNN配置
2.12:【进阶篇】Recurrent Group教程
2.13:【进阶篇】支持双层序列作为输入的Layer
2.14:【进阶篇】单双层RNN API对比介绍
编写|PaddlePaddle
排版|wangp
本文以PaddlePaddle的双层RNN单元测试为示例,用多对效果完全相同的、分别使用单双层RNN作为网络配置的模型,来讲解如何使用双层RNN。本文中所有的例子,都只是介绍双层RNN的API接口,并不是使用双层RNN解决实际的问题。如果想要了解双层RNN在具体问题中的使用,请参考algo_hrnn_demo。本文中示例所使用的单元测试文件是test_RecurrentGradientMachine.cpp。(链接:https://github.com/reyoung/Paddle/blob/develop/paddle/gserver/tests/test_RecurrentGradientMachine.cpp)
1
示例1:双层RNN,子序列间无Memory
在双层RNN中的经典情况是将内层的每一个时间序列数据,分别进行序列操作;并且内层的序列操作之间独立无依赖,即不需要使用Memory。
在本示例中,单层RNN和双层RNN的网络配置,都是将每一句分好词后的句子,使用LSTM作为encoder,压缩成一个向量。区别是RNN使用两层序列模型,将多句话看成一个整体同时使用encoder压缩。二者语意上完全一致。这组语义相同的示例配置如下:
(1)读取双层序列数据
首先,本示例中使用的原始数据如下:
其次,对于两种不同的输入数据类型,不同DataProvider对比如下(sequenceGen.py,链接:https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/
sequenceGen.py)):
这是普通的单层时间序列的DataProvider代码,其说明如下:
对于同样的数据,双层时间序列的DataProvider的代码。其说明如下:
(2)模型配置的模型配置
首先,我们看一下单层RNN的配置。代码中9-15行(高亮部分)即为单层RNN序列的使用代码。这里使用了PaddlePaddle预定义好的RNN处理函数。在这个函数中,RNN对于每一个时间步通过了一个LSTM网络。
其次,我们看一下语义相同的双层RNN的网络配置:
2
示例2:双层RNN,子序列间有Memory
本示例意图使用单层RNN和双层RNN实现两个完全等价的全连接RNN。
模型配置
我们选取单双层序列配置中的不同部分,来对比分析两者语义相同的原因。
警告
PaddlePaddle目前只支持在每个时间步中,Memory的时间序列长度一致的情况
3
示例3:双层RNN,输入不等长
输入不等长 是指recurrent_group的多个输入序列,在每个时间步的子序列长度可以不相等。但序列输出时,需要指定与某一个输入的序列信息是一致的。使用targetInlink可以指定哪一个输入和输出序列信息一致,默认指定第一个输入。
示例3的配置分别为单层不等长RNN和双层不等长RNN。示例3对于单层RNN和双层RNN数据完全相同。
和示例2中的配置类似,示例3的配置使用了单层RNN和双层RNN,实现两个完全等价的全连接RNN。
在上面代码中,单层和双层序列的使用和示例2中的示例类似,区别是同时处理了两个输入。而对于双层序列,两个输入的子序列长度也并不相同。但是,我们使用了targetInlink参数设置了外层recurrent_group的输出格式。所以外层输出的序列形状,和emb2的序列形状一致。
4
词汇表
Memory
Memory是PaddlePaddle实现RNN时候使用的一个概念。RNN即时间递归神经网络,通常要求时间步之间具有一些依赖性,即当前时间步下的神经网络依赖前一个时间步神经网络中某一个神经元输出。如下图所示:
时间步
参考时间序列。
时间序列
时间序列(time series)是指一系列的特征数据。这些特征数据之间的顺序是有意义的。即特征的数组,而不是特征的集合。而这每一个数组元素,或者每一个系列里的特征数据,即为一个时间步(time step)。值得注意的是,时间序列、时间步的概念,并不真正的和『时间』有关。只要一系列特征数据中的『顺序』是有意义的,即为时间序列的输入。
举例说明,例如文本分类中,我们通常将一句话理解成一个时间序列。比如一句话中的每一个单词,会变成词表中的位置。而这一句话就可以表示成这些位置的数组。例如 [9, 2, 3, 5, 3] 。
关于时间序列(time series)的更详细准确的定义,可以参考 维基百科中文页面 时间序列 (链接:https://zh.wikipedia.org/wiki/%E6%99%82%E9%96%93%E5%BA%8F%E5%88%97)
另外,Paddle中经常会将时间序列成为 Sequence 。他们在Paddle的文档和API中是一个概念。
RNN
RNN 在PaddlePaddle的文档中,一般表示 Recurrent neural network,即时间递归神经网络。详细介绍可以参考 维基百科页面 Recurrent neural network 或者 中文维基百科页面(链接:https://zh.wikipedia.org/wiki/%E9%80%92%E5%BD%92%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C)中关于时间递归神经网络的介绍。
RNN 一般在PaddlePaddle中,指对于一个时间序列输入数据,每一个时间步之间的神经网络具有一定的相关性。例如,某一个神经元的一个输入为上一个时间步网络中某一个神经元的输出。或者,从每一个时间步来看,神经网络的网络结构中具有有向环结构。
双层RNN
双层RNN顾名思义,即RNN之间有一次嵌套关系。输入数据整体上是一个时间序列,而对于每一个内层特征数据而言,也是一个时间序列。即二维数组,或者数组的数组这个概念。 而双层RNN是可以处理这种输入数据的网络结构。
例如,对于段落的文本分类,即将一段话进行分类。我们将一段话看成句子的数组,每个句子又是单词的数组。这便是一种双层RNN的输入数据。而将这个段落的每一句话用lstm编码成一个向量,再对每一句话的编码向量用lstm编码成一个段落的向量。再对这个段落向量进行分类,即为这个双层RNN的网络结构。