http://blog.csdn.net/u011239443/article/details/73136866
循环神经网络(RNN)的特殊的地方在于它保存了自己的状态,每次数据输入都会更新状态,输出预测值,并输出更新后的状态,和批数据一起作为输入:
如上图,U为数据输入,V为预测值输出,W为状态值输出并输入下一轮。 由于现实中不能无限的迭代下去,我们将其展开,并在有限次迭代后结束:
RNN的状态是通过一个向量来表示的,设该向量的维度为n
,输入数据x
的维度为m
,则参数个数为(n+m)∗n+n+n∗m+m(n+m)*n+n+n*m+m。我们来举个例子,n=2,m=1n=2,m=1。
设一开始的状态为w0=(0,0)w_0 = (0,0) , x1=(1)x_1=(1) , RNN 和将其合并成一个向量y1=(0,0,1)y_1 = (0,0,1) ,则参数矩阵A1A_1 为一个(n+m)∗n(n+m)*n即3∗23*2的矩阵。设:
A1=⎡⎣⎢⎢0.10.30.50.20.40.6⎤⎦⎥⎥ \begin{equation} A_1=\left[ \begin{matrix} 0.1&0.2\\ 0.3&0.4\\ 0.5&0.6 \end{matrix} \right] \end{equation}
设,维度为n偏置向量:b1=(0.1,−0.1)b_1=(0.1,-0.1)
w1=y1∗A1+b1=(0.537,0.462)\large \color{blue}{w_1 = y_1*A_1+b_1 = (0.537,0.462)}
即,输出到下一轮的状态向量为(0.537,0.462),而在这轮该状态还会与参数n∗mn*m参数矩阵A2A_2相乘,再加上偏置向量m的偏置向量b2b_2。设:
A2=[12] \begin{equation} A_2=\left[ \begin{matrix} 1\\ 2 \end{matrix} \right] \end{equation}
b2=(0.1)b_2=(0.1)
o1=w1∗A2+b2=(1.56)\large \color{blue}{o_1 = w_1*A_2+b_2 = (1.56)}
设x2=2x_2 = 2, y2y_2为w1 w_1和x2x_2合并,即 (0.54,0.46,2)
w2=y2∗A1+b1=(0.860,0.884)\large \color{blue}{w_2 = y_2*A_1+b_1 = (0.860,0.884)}
o2=w2∗A2+b2=(2.73)\large \color{blue}{o_2 = w_2*A_2+b_2 = (2.73)}
顾名思义,双向的状态传播:
要注意的是,RNN的dropout
不会在深度方向上使用,只会在状态输出到下一轮的时候使用。