: $$\sigma_i(z)=\frac{e^{z_i}}{\sum_{j=1}^{m}e^{z_j}}
从Softmax函数的定义可以看出,最后一层的结点的输出值加和都是1.
4.2 交叉熵
Softmax...$H_t$中,每次$W_X$和输入$X_t$做乘积,然后与另一部分Ht-1和$W_H$乘积共同参与运算得到$Y$.最后训练得到的就是$W_X$和$W_H$系数矩阵.
2.2 训练过程:传统的RNN在训练过程中的效果不理想...3.3 构造
在t时刻,LSTM的输入有三个:当前时刻网络的输入值Xt,上一时刻LSTM的输出值Ht-1,以及上一时刻的单元状态Ct-1.LSTM的输出有两个:当前时刻LSTM输出值$H_t$和当前时刻单元状态...LSTM使用门来控制长期状态,门其实就是一层全连接层,输入是一个向量,输出是一个0到1之间的实数(Sigmoid层).
当门输出为0时,任何向量与之相乘都会得到0向量,就是什么都不能通过....输出门:控制单元状态$C_t$有多少能保留到LSTM的当前输出值$H_t$.
3.4 LSTM和传统的RNN对比:
传统的RNN只有一个状态,对短期的输入非常敏感,而LSTM增加了一个状态C,用来保存长期的状态