导语
PaddlePaddle 高度支持灵活和高效的循环神经网络配置。接下来的进阶篇推文将围绕RNN模型展开,指导你如何在 PaddlePaddle 中配置和使用循环神经网络。本部分推文目录如下:
2.11:【进阶篇】RNN配置
2.12:【进阶篇】Recurrent Group教程
2.13:【进阶篇】支持双层序列作为输入的Layer
2.14:【进阶篇】单双层RNN API对比介绍
编写|PaddlePaddle
排版|wangp
1
概述
序列数据是自然语言处理任务面对的一种主要输入数据类型。
一句话是由词语构成的序列,多句话进一步构成了段落。因此,段落可以看作是一个嵌套的双层的序列,这个序列的每个元素又是一个序列。
双层序列是PaddlePaddle支持的一种非常灵活的数据组织方式,帮助我们更好地描述段落、多轮对话等更为复杂的语言数据。基于双层序列输入,我们可以设计搭建一个灵活的、层次化的RNN,分别从词语和句子级别编码输入数据,同时也能够引入更加复杂的记忆机制,更好地完成一些复杂的语言理解任务。
在PaddlePaddle中,recurrent_group是一种任意复杂的RNN单元,用户只需定义RNN在一个时间步内完成的计算,PaddlePaddle负责完成信息和误差在时间序列上的传播。
更进一步,recurrent_group同样可以扩展到双层序列的处理上。通过两个嵌套的recurrent_group分别定义子句级别和词语级别上需要完成的运算,最终实现一个层次化的复杂RNN。
目前,在PaddlePaddle中,能够对双向序列进行处理的有recurrent_group和部分Layer。
2
相关概念
(1)基本原理
recurrent_group 是PaddlePaddle支持的一种任意复杂的RNN单元。使用者只需要关注于设计RNN在一个时间步之内完成的计算,PaddlePaddle负责完成信息和梯度在时间序列上的传播。
PaddlePaddle中,recurrent_group的一个简单调用如下:
recurrent_group(step, input, reverse)
使用recurrent_group的核心是设计step函数的计算逻辑。step函数内部可以自由组合PaddlePaddle支持的各种layer,完成任意的运算逻辑。recurrent_group 的输入(即input)会成为step函数的输入,由于step 函数只关注于RNN一个时间步之内的计算,在这里recurrent_group替我们完成了原始输入数据的拆分。
(2)输入
recurrent_group处理的输入序列主要分为以下三种类型:
(3)输入示例
序列生成任务大多遵循encoder-decoer架构,encoder和decoder可以是能够处理序列的任意神经网络单元,而RNN是最流行的选择。
给定encoder输出和当前词,decoder每次预测产生下一个最可能的词语。在这种结构中,decoder接受两个输入:
在序列生成任务中,decoder RNN总是引用上一时刻预测出的词的词向量,作为当前时刻输入。GeneratedInput自动完成这一过程。
(4)输出
step函数必须返回一个或多个Layer的输出,这个Layer的输出会作为整个recurrent_group 最终的输出结果。在输出的过程中,recurrent_group 会将每个时间步的输出拼接,这个过程对用户也是透明的。
(5)memory
memory只能在recurrent_group中定义和使用。memory不能独立存在,必须指向一个PaddlePaddle定义的Layer。引用memory得到这layer上一时刻输出,因此,可以将memory理解为一个时延操作。
可以显示地指定一个layer的输出用于初始化memory。不指定时,memory默认初始化为0。
3
双层RNN介绍
recurrent_group帮助我们完成对输入序列的拆分,对输出的合并,以及计算逻辑在序列上的循环展开。利用这种特性,两个嵌套的recurrent_group能够处理双层序列,实现词语和句子两个级别的双层RNN结构。
为了描述方便,下文以NLP任务为例,将含有子句(subseq)的段落定义为一个双层序列,将含有词语的句子定义为一个单层序列,那么0层序列即为一个词语。
4
双层RNN的使用
(1)训练流程的使用方法
使用 recurrent_group需要遵循以下约定:
A.单进单出:输入和输出都是单层序列。
B.双进双出:输入和输出都是双层序列。
C.双进单出:目前还未支持,会报错”In hierachical RNN, all out links should be from sequences now”。
(2)生成流程的使用方法
使用beam_search需要遵循以下约定: