深度学习——RNN(2)双向RNN深度RNN几种变种

前言:前面介绍了LSTM,下面介绍LSTM的几种变种

双向RNN

Bidirectional RNN(双向RNN)假设当前t的输出不仅仅和之前的序列有关,并且 还与之后的序列有关,例如:预测一个语句中缺失的词语那么需要根据上下文进 行预测;Bidirectional RNN是一个相对简单的RNNs,由两个RNNs上下叠加在 一起组成。输出由这两个RNNs的隐藏层的状态决定。

如下图:

网络构建的代码如下:

# 开始网络构建
    # 1. 输入的数据格式转换
    # X格式:[batch_size, time_steps, input_size]
    X = tf.reshape(_X, shape=[-1, timestep_size, input_size])

    # 单层LSTM RNN
    # 2. 定义Cell
    lstm_cell_fw = tf.nn.rnn_cell.LSTMCell(num_units=hidden_size, reuse=tf.get_variable_scope().reuse)
    gru_cell_bw = tf.nn.rnn_cell.GRUCell(num_units=hidden_size, reuse=tf.get_variable_scope().reuse)

    # 3. 单层的RNN网络应用
    init_state_fw = lstm_cell_fw.zero_state(batch_size, dtype=tf.float32)
    init_state_bw = gru_cell_bw.zero_state(batch_size, dtype=tf.float32)

    # 3. 动态构建双向的RNN网络
    """
    bidirectional_dynamic_rnn(
        cell_fw: 前向的rnn cell
        , cell_bw:反向的rnn cell
        , inputs:输入的序列
        , sequence_length=None
        , initial_state_fw=None:前向rnn_cell的初始状态
        , initial_state_bw=None:反向rnn_cell的初始状态
        , dtype=None
        , parallel_iterations=None
        , swap_memory=False, time_major=False, scope=None)
    API返回值:(outputs, output_states) => outputs存储网络的输出信息,output_states存储网络的细胞状态信息
    outputs: 是一个二元组, (output_fw, output_bw)构成,output_fw对应前向的rnn_cell的执行结果,结构为:[batch_size, time_steps, output_size];output_bw对应反向的rnn_cell的执行结果,结果和output_bw一样
    output_states:是一个二元组,(output_state_fw, output_state_bw) 构成,output_state_fw和output_state_bw是dynamic_rnn API输出的状态值信息
    """
    outputs, states = tf.nn.bidirectional_dynamic_rnn(
        cell_fw=lstm_cell_fw, cell_bw=gru_cell_bw, inputs=X,
        initial_state_fw=init_state_fw, initial_state_bw=init_state_bw)
    output_fw = outputs[0][:, -1, :]
    output_bw = outputs[1][:, -1, :]
    output = tf.concat([output_fw, output_bw], 1)

深度RNN

Deep Bidirectional RNN(深度双向RNN)类似Bidirectional RNN,区别在于每 个每一步的输入有多层网络,这样的话该网络便具有更加强大的表达能力和学习 能力,但是复杂性也提高了,同时需要训练更多的数据。

深度RNN网络构建的代码如下:

#多层
    def lstm_call():
        cell = tf.nn.rnn_cell.LSTMCell(num_units=hidden_size,reuse=tf.get_variable_scope().reuse)
        return tf.nn.rnn_cell.DropoutWrapper(cell,output_keep_prob=keep_prob)
    mlstm_cell = tf.nn.rnn_cell.MultiRNNCell(cells=[lstm_call() for i in range(layer_num)])
    inint_state = mlstm_cell.zero_state(batch_size,tf.float32)
    output,state = tf.nn.dynamic_rnn(mlstm_cell,inputs=X,initial_state=inint_state)
    output = output[:,-1,:]

几种变种

  1. 增加“peephole connections”层 让门层也接受细胞状态的输入
  1. 通过耦合忘记门和更新输入门(第一个和第二个门);也就是不再单独的考虑忘记什么、增 加什么信息,而是一起进行考虑。
  1. Gated Recurrent Unit(GRU),2014年提出 将忘记门和输入门合并成为一个单一的更新门 同时合并了数据单元状态和隐藏状态 结构比LSTM的结构更加简单

可以参考论文:http://arxiv.org/pdf/1402.1128v1.pdf

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PaddlePaddle

【进阶篇】单双层RNN API对比介绍

导语 PaddlePaddle 高度支持灵活和高效的循环神经网络配置。本周进阶篇推文将围绕RNN模型展开,指导你如何在 PaddlePaddle 中配置和使用循...

35440
来自专栏磐创AI技术团队的专栏

FastText的内部机制

13930
来自专栏游戏开发那些事

【小白学游戏常用算法】一、随机迷宫算法

  现在的很多游戏中的地图一般采用格子的方式,虽然在表面地图上无法看到实际的格子,但是在地图的结构中专门有一个逻辑层,这个层和地图大小相等,划出很多小的格子,然...

17120
来自专栏fangyangcoder

tensorflow笔记(二)之构造一个简单的神经网络

http://www.cnblogs.com/fydeblog/p/7425200.html

14420
来自专栏帮你学MatLab

《Experiment with MATLAB》读书笔记(七)

读书笔记(七) 这是第七部分稀疏矩阵操作 复制代码即可运行 %% 稀疏矩阵 n = 6 i = [2 6 3 4 4 5 6 1 1] j...

294100
来自专栏机器学习算法工程师

从0 到1 实现YOLO v3(part two)

本部分是 从0到1 实现YOLO v3 的第二部分 的第二部分,前两部分主要介绍了YOLO的工作原理,包含的模块的介绍以及如何用pytorch搭建完整的YOL...

85440
来自专栏LhWorld哥陪你聊算法

【TensorFlow篇】--Tensorflow框架可视化之Tensorboard

TensorBoard是tensorFlow中的可视化界面,可以清楚的看到数据的流向以及各种参数的变化,本文基于一个案例讲解TensorBoard的用法。

14620
来自专栏数值分析与有限元编程

可视化 | MATLAB划分均匀三角形网格

划分单元网格是随心所欲的,所遵循的原则就是尽量提高计算精度。下面是一个规则区域划分均匀三角形网格的例子。 如图所示,将一个矩形平面区域划分成相同大小的直角三角形...

40940
来自专栏tkokof 的技术,小趣及杂念

数学笔记(二)之平面表示

  假设我们知道垂直于平面的法向量n,以及平面上的一点p0,如何使用这两个元素来表示该平面呢?

8820
来自专栏漫漫深度学习路

pytorch学习笔记(三):自动求导

auto gradient 本片博文主要是对http://pytorch.org/docs/notes/autograd.html的部分翻译以及自己的理解,如有...

305100

扫码关注云+社区

领取腾讯云代金券