记忆网络RNN、LSTM与GRU

一般的神经网络输入和输出的维度大小都是固定的,针对序列类型(尤其是变长的序列)的输入或输出数据束手无策。RNN通过采用具有记忆的隐含层单元解决了序列数据的训练问题。LSTM、GRU属于RNN的改进,解决了RNN中梯度消失爆炸的问题,属于序列数据训练的常用方案。

RNN

结构

传统的神经网络的输入和输出都是确定的,RNN的输入和输出都是不确定的sequence数据。其结构如下:

具体地,RNN有隐含层,隐含层也是记忆层,其状态(权值)会传递到下一个状态中。

htyt=σ(xtWxh+ht−1Whh)=σ(htWhy)

\begin{split} h^t &= \sigma(x^tW_{xh} + h^{t-1}W_{hh}) \\ y^t &= \sigma(h^tW_{hy}) \end{split}

训练

训练步骤如下:

  1. 构建损失函数
  2. 求损失函数对权值的梯度
  3. 采用梯度下降法更新权值参数

关于损失函数,根据需要选择构建即可,下面提供两种常见的损失函数:

CC=12∑n=1N||yn−ŷ n||2=12∑n=1N−logynrn

\begin{split} C &= \frac{1}{2}\sum_{n=1}^N ||y^n-{\hat{y}}^n||^2 \\ C &= \frac{1}{2}\sum_{n=1}^N -\log y_{r^n}^n \end{split}

关于梯度下降,采用BPTT(Backpropagation through time)算法,该算法的核心是对每一个时间戳,计算该时间戳中权重的梯度,然后更新权重。需要注意的是,不同时间戳同样权重的梯度可能是不一样的,如下图所示都减去,相当于更新同一块内存区域中的权重。

应用

  • 多对多:词性标注pos tagging、语音识别、name entity recognition(区分poeple、organizations、places、information extration(区分place of departure、destination、time of departure、time of arrival, other)、机器翻译
  • 多对一:情感分析
  • 一对多:caption generation

RNN Variants

RNN的变种大致包含下面3个思路:

  • 增加隐含层的输入参数:例如除了ht−1,xth^{t-1}, x^t,还可以包含yt−1y^{t-1}作为输入。
  • 增加隐含层的深度
  • 双向RNN

LSTM

结构

  • 单个时间戳,RNN输入1个x,输出1个y
  • 单个时间戳,LSTM输入4个x,输出1个y

相比RNN,LSTM的输入多了3个x,对应3个gate,这3个gate分别是:

  • input gate:控制输入
  • forget gate:控制cell
  • output gate:控制输出

涉及到的激活函数共5个,其中3个控制gate的(通常用sigmoid函数,模拟gate的开闭状态),1个作用于输入上,一个作用于cell的输出上。

LSTM单个时间戳的具体执行如下:

  • 输入:4个输入xx,1个cell的状态cc
  • 输出:1个输出aa,1个更新的cell状态c′c'

c′a=g(z)f(zi)+cf(zf)=h(c′)f(zo)

\begin{split} c' &= g(z)f(z_i) + cf(z_f) \\ a &= h(c')f(z_o) \end{split}

梯度消失及梯度爆炸

首先,要明白RNN中梯度消失与梯度爆炸的原因:在时间戳的更新中,cell的状态不断乘以WhhW_{hh}。简单起见,视WhhW_{hh}为scalar值ww,那么y=xwny=xw^n,∂y∂w=nxwn−1\frac{\partial{y}}{\partial{w}}=nxw^{n-1}。根据ww的值与1的大小关系,梯度会消失或者爆炸。

接下来,要明白LSTM如何解决RNN中梯度消失与爆炸的问题。

针对梯度消失,RNN中当获取c′c'的梯度后,因为c′=cwc' = cw,为了backward获得cc的梯度,要将c′c'的梯度乘以ww;LSTM中存在梯度的快速通道,获取c′c'的梯度后,因为c′=g(z)f(zi)+cf(zf)c' = g(z)f(z_i)+cf(z_f),当forget gate打开时,c′=g(z)f(zi)+cc' = g(z)f(z_i)+c。c′c'的梯度可以直接传递给cc。 总结来说,LSTM相比RNN,将c,c′c,c'的更新关系从乘法变成了加法,因此不用乘以权值系数ww,c′c'的梯度可以直接传递给cc,解决了梯度消失的问题。

针对梯度爆炸,即使将c,c′c,c'的关系由乘法变成了加法,仍然解决不了梯度爆炸。原因便是梯度的路径不止一条,如下图所示,红色的块仍然可能造成梯度爆炸。LSTM解决这个问题的方法是clip,也就是设置梯度最大值,超过最大值的按最大值计。

GRU

结构

GRU相比LSTM的3个gate,只用了两个gate:

  • update gate:ztz_t
  • reset gate:rtr_t

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

用反卷积(Deconvnet)可视化和理解卷积网络

1323
来自专栏机器之心

业界 | OpenAI提出Reptile:可扩展的元学习算法

26412
来自专栏人工智能

机器学习三人行-Logistic和Softmax回归实战剖析

关注公众号“智能算法”即可一起学习整个系列的文章 本文主要实战Logistic回归和softmax回归在iris数据集上的应用,通过该文章,希望我们能一起掌握该...

1906
来自专栏AI科技评论

干货 | 基于深度学习的目标检测算法综述(二)

目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展,目标检测算法也从基...

562
来自专栏深度学习

图像分类 | 深度学习PK传统机器学习

图像分类,顾名思义,是一个输入图像,输出对该图像内容分类的描述的问题。它是计算机视觉的核心,实际应用广泛。 图像分类的传统方法是特征描述及检测,这类传统方法可能...

3749
来自专栏云时之间

译文 朴素贝叶斯算法总结

在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是...

2769
来自专栏IT技术精选文摘

深入浅出谈人脸识别技术

在深度学习出现后,人脸识别技术才真正有了可用性。这是因为之前的机器学习技术中,难以从图片中取出合适的特征值。轮廓?颜色?眼睛?如此多的面孔,且随着年纪、光线、拍...

3286
来自专栏磐创AI技术团队的专栏

干货 | 基于深度学习的目标检测算法综述(二)

目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展,目标检测算法也从基...

732
来自专栏weixuqin 的专栏

深度学习之 TensorFlow(四):卷积神经网络

1263
来自专栏企鹅号快讯

卷积神经网络CNN原理详解(一)——基本原理

作者:Charlotte77数学系的数据挖掘民工 博客专栏:http://www.cnblogs.com/charlotte77/ 个人公众号:Charlott...

2655

扫码关注云+社区