专栏首页灯塔大数据深度学习中的参数梯度推导(四):vanilla RNN的前传与反传

深度学习中的参数梯度推导(四):vanilla RNN的前传与反传

前言

在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系。今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Recurrent Neural Networks ,以下简称RNN),它广泛的用于自然语言处理中的语音识别,手写书别以及机器翻译等领域。

4.1

vanilla RNN的前传

先贴一张vanilla(朴素)RNN的前传示意图。

上图中左边是RNN模型没有按时间展开的图,如果按时间序列展开,则是上图中的右边部分。我们重点观察右边部分的图。这幅图描述了在序列索引号t附近RNN的模型。其中:

4.1.1 RNN前向传播计算公式

4.2

vanilla RNN的反向传播推导

RNN反向传播算法的思路和DNN是一样的,即通过梯度下降法一轮轮的迭代,得到合适的RNN模型参数U,W,V,b,c。由于我们是基于时间反向传播,所以RNN的反向传播有时也叫做BPTT(back-propagation through time)。当然这里的BPTT和DNN也有很大的不同点,即这里所有的U,W,V,b,c在序列的各个位置是共享的,反向传播时我们更新的是相同的参数

为了简化描述,这里的损失函数我们为交叉熵损失函数,输出的激活函数为softmax函数,隐藏层的激活函数为tanh函数。

4.3

RNN发生梯度消失与梯度爆炸的原因

参考资料

https://www.cnblogs.com/pinard/p/6519110.html

https://www.cnblogs.com/sumwailiu/p/13614859.html

书籍:2017.09《深度学习(花书)》

深度学习

TO BE CONTINUED

数学

文章作者: 中国电信研究院 | 刘心唯

文章内容系作者个人观点,不代表融智未来公众号的观点或立场。

本文分享自微信公众号 - 融智未来(DTbigdata),作者:刘心唯

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 深度学习中的参数梯度推导(二):深度神经网络(DNN)的前传与反传

    在深度学习中的参数梯度推导(一)的上篇和下篇中,我们总结了一些用于推导神经网络反向梯度求导的重要的数学技巧。此外,通过一个简单的demo,我们初步了解了使用矩阵...

    灯塔大数据
  • 从0到1:实现循环神经网络Vanilla RNN(序列分析)

    RNN是深度学习算法的核心构件,为了更好的理解算法,我们从动机、结构,到反向传播和学习策略,逐步分析,然后不借助深度学习框架,实现RNN模型,再应用于时序数据的...

    SIGAI学习与实践平台
  • 深度学习的57个名词解释及相关论文资料

    一、激活函数(AcTIvaTIon FuncTIon) 为了让神经网络能够学习复杂的决策边界(decision boundary),我们在其一些层应用一个非线性...

    企鹅号小编
  • CS224n笔记[6]:更好的我们,更好的RNNs

    相比于计算机视觉,NLP可能看起来没有那么有趣,这里没有酷炫的图像识别、AI作画、自动驾驶,我们要面对的,几乎都是枯燥的文本、语言、文字。但是,对于人工智能的征...

    beyondGuo
  • Cs231n assignment3之LSTM

    好久没有更新cs231n的作业详解内容了,最近复习考试,利用业余时间来把LSTM完成!

    公众号guangcity
  • 深度学习中的参数梯度推导(三)中篇

    在深度学习中的参数梯度推导(三)上篇中,我们总结了CNN(卷积神经网络)的前向传播。在本篇(中篇)以及之后的下篇里,我们要解决CNN反向梯度的推导问题。本篇的主...

    灯塔大数据
  • Image Captioning with RNNs

    0.导语1.下载数据集2.Look at the data3.Vanilla RNN3.1 step forward3.2 step backward3.3 f...

    公众号guangcity
  • 深度学习中的参数梯度推导(五)上篇

    在循环神经网络(RNN)模型与前向反向传播算法中,我们总结了对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进...

    灯塔大数据
  • 深度学习中的参数梯度推导(五)下篇

    在深度学习中的参数梯度推导(五)上篇中,我们总结了LSTM的前向传播公式,在本篇(下篇)中,我们将继续完成LSTM的反向传播推导。

    灯塔大数据
  • 深度学习中的参数梯度推导(一)下篇

    在《深度学习中的参数梯度推导(一)上篇》中,我们总结了各常见(向量对矩阵,矩阵对向量)的导数定义。我们还学习了矩阵微分和矩阵导数的关系,以及一些常见的矩阵微分性...

    灯塔大数据
  • 深度学习中的参数梯度推导(三)下篇

    在深度学习中的参数梯度推导(三)中篇里,我们总结了CNN的BP推导第一步:BP通过池化层时梯度的计算公式。本篇(下篇)则继续推导CNN相关的其他梯度计算公式。

    灯塔大数据
  • 深度学习中的参数梯度推导(三)上篇

    在深度学习中的参数梯度推导(二)中,我们总结了经典而基础的DNN的前向和反向传播。在本篇(上篇),我们将介绍另一经典的神经网络CNN的前向传播,并在下篇中介绍推...

    灯塔大数据
  • 关于深度学习,这57个专业术语,你必须得知道

    本文整理了一些深度学习领域的专业名词及其简单释义,同时还附加了一些相关的论文或文章链接。本文编译自 wildml,作者仍在继续更新该表,编译如有错漏之处请指正。

    华章科技
  • 王的机器带你学 MIT 深度学习导论课

    深度学习并不是和机器学习并列的一个科目,而且用神经网络模型来处理机器学习里的有监督学习、无监督学习和强化学习这些子类 (注意这些红蓝绿颜色对应的名词),如下图所...

    用户5753894
  • Pytorch 学习笔记之自定义 Module

    pytorch 是一个基于 python 的深度学习库。pytorch 源码库的抽象层次少,结构清晰,代码量适中。相比于非常工程化的 tensorflow,py...

    丁科
  • 「LSTM 之父」亲笔万字长文,只为向世人证明:深度学习不是在母语为英语的地方被发明的

    毫无疑问,深度学习是影响当今世界科技发展的最重要的技术之一。2018 年,深度学习「三巨头」因其在这个领域的卓越贡献荣获图灵奖。在人们感慨人工智能迎来春天的同时...

    AI科技评论
  • 世界欠他一个图灵奖! LSTM之父的深度学习“奇迹之年”

    近日,LSTM 的发明人、著名深度学习专家 Jürgen Schmidhuber 发表了一篇长文,详细论述了近 30 年前,即 1990~1991 年之间他和团...

    数据派THU
  • 递归神经网络不可思议的有效性(上)

    用户1737318
  • 递归神经网络不可思议的有效性

    递归神经网络(RNNs)有一些不可思议的地方。我仍然记得我训练的第一个用于图片字幕的递归网络。从花几十分钟训练我的第一个婴儿模型(相当随意挑选的超参数)开始,到...

    CSDN技术头条

扫码关注云+社区

领取腾讯云代金券