都是Xt的函数,Xt又是 的函数,因此,要求出E对 的导数,就需要使用全导数公式:
?
式14就是将误差传递到上一层的公式。...、很容易求出t时刻的Woh,Wih,Wfh,Wch:
?
将各个时刻的梯度加在一起,就能得到最终的梯度:
?
对于偏置项bf,bi,bc,bo的梯度,也是将各个时刻的梯度加在一起。...的参数包括输入维度、输出维度、隐藏层维度,单元状态维度等于隐藏层维度。...这些矩阵和向量有两类用途,一类是用于保存模型参数,例如Wf,Wi,Wo,Wc,bf,bi,bo,bc;另一类是保存各种中间计算结果,以便于反向传播算法使用,它们包括ht,ft,it,ot,ct,
?...以及各个权重对应的梯度。
在构造函数的初始化中,只初始化了与forward计算相关的变量,与backward相关的变量没有初始化。