前言
在深度学习中的参数梯度推导(五)上篇中,我们总结了LSTM的前向传播公式,在本篇(下篇)中,我们将继续完成LSTM的反向传播推导。
5.2
LSTM的反向传播推导
5.3
LSTM 能改善梯度消失的原因
因此,RNN中总的梯度是不会消失的。即便梯度越传越弱,那也只是远距离的梯度消失,由于近距离的梯度不会消失,所有梯度之和便不会消失。RNN所谓梯度消失的真正含义是,梯度被近距离梯度主导,导致模型难以学到远距离的依赖关系。
由于总的远距离梯度=各条路径的远距离梯度之和,即便其他远距离路径梯度消失了,只要保证有一条远距离路径(就是上面说的那条高速公路)梯度不消失,总的远距离梯度就不会消失(正常梯度+消失梯度=正常梯度)。因此LSTM通过改善一条路径上的梯度问题拯救了总体的远距离梯度。
参考资料
https://www.zhihu.com/question/34878706/answer/665429718
https://www.cnblogs.com/sumwailiu/p/13623985.html
https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html
https://www.cnblogs.com/pinard/p/6519110.html