专栏首页灯塔大数据深度学习中的参数梯度推导(五)下篇

深度学习中的参数梯度推导(五)下篇

前言

在深度学习中的参数梯度推导(五)上篇中,我们总结了LSTM的前向传播公式,在本篇(下篇)中,我们将继续完成LSTM的反向传播推导。

5.2

LSTM的反向传播推导

5.3

LSTM 能改善梯度消失的原因

因此,RNN中总的梯度是不会消失的。即便梯度越传越弱,那也只是远距离的梯度消失,由于近距离的梯度不会消失,所有梯度之和便不会消失。RNN所谓梯度消失的真正含义是,梯度被近距离梯度主导,导致模型难以学到远距离的依赖关系。

由于总的远距离梯度=各条路径的远距离梯度之和,即便其他远距离路径梯度消失了,只要保证有一条远距离路径(就是上面说的那条高速公路)梯度不消失,总的远距离梯度就不会消失(正常梯度+消失梯度=正常梯度)。因此LSTM通过改善一条路径上的梯度问题拯救了总体的远距离梯度。

参考资料

https://www.zhihu.com/question/34878706/answer/665429718

https://www.cnblogs.com/sumwailiu/p/13623985.html

https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html

https://www.cnblogs.com/pinard/p/6519110.html

本文分享自微信公众号 - 融智未来(DTbigdata),作者:刘心唯

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-10-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 深度学习中的参数梯度推导(五)上篇

    在循环神经网络(RNN)模型与前向反向传播算法中,我们总结了对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进...

    灯塔大数据
  • 深度学习中的参数梯度推导(一)下篇

    在《深度学习中的参数梯度推导(一)上篇》中,我们总结了各常见(向量对矩阵,矩阵对向量)的导数定义。我们还学习了矩阵微分和矩阵导数的关系,以及一些常见的矩阵微分性...

    灯塔大数据
  • 深度学习中的参数梯度推导(三)下篇

    在深度学习中的参数梯度推导(三)中篇里,我们总结了CNN的BP推导第一步:BP通过池化层时梯度的计算公式。本篇(下篇)则继续推导CNN相关的其他梯度计算公式。

    灯塔大数据
  • 深度学习中的参数梯度推导(三)中篇

    在深度学习中的参数梯度推导(三)上篇中,我们总结了CNN(卷积神经网络)的前向传播。在本篇(中篇)以及之后的下篇里,我们要解决CNN反向梯度的推导问题。本篇的主...

    灯塔大数据
  • 深度学习中的参数梯度推导(三)上篇

    在深度学习中的参数梯度推导(二)中,我们总结了经典而基础的DNN的前向和反向传播。在本篇(上篇),我们将介绍另一经典的神经网络CNN的前向传播,并在下篇中介绍推...

    灯塔大数据
  • 深度学习中的参数梯度推导(四):vanilla RNN的前传与反传

    在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系。今天我们就讨论另一类输出和模型...

    灯塔大数据
  • 深度学习中的参数梯度推导(二):深度神经网络(DNN)的前传与反传

    在深度学习中的参数梯度推导(一)的上篇和下篇中,我们总结了一些用于推导神经网络反向梯度求导的重要的数学技巧。此外,通过一个简单的demo,我们初步了解了使用矩阵...

    灯塔大数据
  • 深度学习中的不可导操作(次梯度和重参数化)

    深度学习中的绝大多数模型都是靠求导梯度下降来进行参数更新. 但是如果遇到不可求导的操作该怎么办? 这时候如何优化我们的模型呢.

    Houye
  • 2017 年最推荐的五篇深度学习论文

    来源:极光日报 简评:2017 年度最值得深入阅读的五篇深度学习相关论文,如果没读过的可以行动了。 1. 最酷视觉效果:使用 CycleGAN 在不成对图像集之...

    企鹅号小编
  • 深度学习中的重参数技巧

    今天来聊聊重参数技巧~ 现在说的重参数技巧主要是两方面,一种是用于生成模型中的重参数技巧,一种是目前比较火的

    灿视学长
  • 吴恩达深度学习笔记 2.6~2.9 logistic中的梯度下降

    之前我们已经了解了Coss Function的定义,它是一个convex,所以我们能找到它的全局最优解,我们可以先可以先随便选取一组w,b,求得刚开始J(w,b...

    Dar_Alpha
  • 干货分享 | 深度学习零基础进阶第二弹

    图片来自wiki 昨天,雷锋网编译了《干货分享 | 深度学习零基础进阶大法!》,相信读者一定对深度学习的历史有了一个基本了解,其基本的模型架构(CNN/RNN/...

    AI科技评论
  • 损失函数、梯度下降,深度学习的基础全打通!

    在上一篇文章当中我们简单介绍了感知机和神经网络的一个关系,对神经网络有了一个粗浅的理解。其实神经网络并没有大家想的那么难,每个神经元之间的数据传输以及计算方式都...

    TechFlow-承志
  • 【一】零基础入门深度学习:用numpy实现神经网络训练

    本课程是零基础入门深度学习课程,主要面向没有深度学习技术基础或者基础薄弱的同学,帮助大家实现从0到1的跨越。从本课程中,你将学习到:

    天道Vax的时间宝藏
  • 梯度下降法基本推导--机器学习最基本的起点

    仍然是一篇入门文,用以补充以前文章中都有意略过的部分。 之前的系列中,我们期望对数学并没有特别喜好的程序员,也可以从事人工智能应用的开发。但走到比较深入之...

    俺踏月色而来
  • 第四篇:《机器学习之逻辑回归(上)》

    前面我们学习了线性回归,它通过输入一个样本的所有特征,然后和参数计算得到了自己的预测值,再通过梯度下降完成代价函数的最小化。

    ACM算法日常
  • 布客·ApacheCN 翻译校对活动进度公告 2020.5

    参与方式:https://github.com/apachecn/interpretable-ml-book-zh/blob/master/CONTRIBUTI...

    ApacheCN_飞龙
  • 吴恩达的新深度学习课程什么样?我们试听了一下 | 附视频

    问耕 发自 凹非寺 量子位 报道 | 公众号 QbitAI 注册之后,可以获得七天免费试听。不过在这之前,你首先需要输入一张信用卡/储蓄卡,或者Paypal账户...

    量子位
  • 吴恩达深度学习课最新补充教程:交互式demo助你轻松理解神经网络初始化

    这篇教程共包括四部分:有效初始化的重要性、梯度爆炸或消失问题、什么是恰当的初始化,以及 Xavier 初始化的数学证明。

    Python数据科学

扫码关注云+社区

领取腾讯云代金券