由于这三组参数是共享的,我们需要将一个训练实例在每时刻的梯度相加。
1、要求:每个时间的梯度都计算出来t=0,t=1,t=2,t=3,t=4,然后加起来的梯度, 为每次W更新的梯度值。...+ b_{a}Uxt+Wst−1+ba的对于不同参数的导数
4.1.2.8 梯度消失与梯度爆炸
由于RNN当中也存在链式求导规则,并且其中序列的长度位置。...所以
如果矩阵中有非常小的值,并且经过矩阵相乘N次之后,梯度值快速的以指数形式收缩,较远的时刻梯度变为0。...如果矩阵的值非常大,就会出现梯度爆炸
4.1.3 RNN 总结
总结使用tanh激活函数。...:, t], s_next, parameters)
# 保存隐层的输出值s_next
s[:, :, t] = s_next
# 保存cell的预测值out_pred