深度学习中的参数梯度推导（五）下篇

灯塔大数据

发布于 2020-11-04 15:42:44

6320

发布于 2020-11-04 15:42:44

文章被收录于专栏：灯塔大数据

前言

在深度学习中的参数梯度推导（五）上篇中，我们总结了LSTM的前向传播公式，在本篇（下篇）中，我们将继续完成LSTM的反向传播推导。

5.2

LSTM的反向传播推导

5.3

LSTM 能改善梯度消失的原因

因此，RNN中总的梯度是不会消失的。即便梯度越传越弱，那也只是远距离的梯度消失，由于近距离的梯度不会消失，所有梯度之和便不会消失。RNN所谓梯度消失的真正含义是，梯度被近距离梯度主导，导致模型难以学到远距离的依赖关系。

由于总的远距离梯度=各条路径的远距离梯度之和，即便其他远距离路径梯度消失了，只要保证有一条远距离路径（就是上面说的那条高速公路）梯度不消失，总的远距离梯度就不会消失（正常梯度+消失梯度=正常梯度）。因此LSTM通过改善一条路径上的梯度问题拯救了总体的远距离梯度。

参考资料

https://www.zhihu.com/question/34878706/answer/665429718

https://www.cnblogs.com/sumwailiu/p/13623985.html

https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html

https://www.cnblogs.com/pinard/p/6519110.html

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-10-19，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自融智未来微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度