介绍
上面是单个LSTM单元的图表。我知道它看起来可怕?,但我们会通过一个接一个的文章,希望它会很清楚。
解释
基本上一个LSTM单元有4个不同的组件。忘记门、输入门、输出门和单元状态。...变量:对于每个门,我们有一组权重和偏差,表示为:
W_f,b_f->遗忘门的权重和偏差
W_i,b_i->输入门的权重和偏差
W_c,b_c->单元状态的权重和偏差
W_o,b_o->输出门的权重和偏差...W_v ,b_v -> 与Softmax层相关的权重和偏差
f_t, i_t,c_tilede_t, o_t -> 输出使用的激活函数
a_f, a_i, a_c, a_o -> 激活函数的输入
J是成本函数...现在我们已经准备好了变量并且清楚了前向传播的公式,现在是时候通过反向传播来推导导数了。我们将从输出方程开始因为我们看到在其他方程中也使用了同样的导数。这时就要用到链式法则了。我们现在开始吧。...- >输出门
权重和偏差
W和b的推导很简单。下面的推导是针对Lstm的输出门的。对于其余的门,对权重和偏差也进行了类似的处理。