循环神经网络模型

Steve Wang

发布于 2019-05-26 15:00:52

5580

发布于 2019-05-26 15:00:52

文章被收录于专栏：从流域到海域

整理并翻译自吴恩达深度学习系列视频：序列模型第一周，有所详略。

Recurrent Neural Network

一个标准的循环神经网络如图所示，在网络的每一个时间步ttt，它接受前一层的激活函数值a<t−1>a^{<t-1>}a<t−1>和输入x<t>x^{<t>}x<t>，使用权值矩阵使用WaaW_{aa}Waa和WaxW_{ax}Wax计算a<t>a^{<t>}a<t>，使用结果a<t>a^{<t>}a<t>和权值矩阵WyaW_{ya}Wya计算y^<t>\hat{y}^{<t>}y^<t>，计算方法如第二小节。

Forward Propagation

可总结为以下： a<t>=g1(Waaa<t−1>+Waxx<t>+ba)a^{<t>}=g_1(W_{aa}a^{<t-1>}+W_{ax}x^{<t>}+b_a)a<t>=g1(Waaa<t−1>+Waxx<t>+ba) y^<t>=g2(Wyaa<t>+by)\hat{y}^{<t>}=g_2(W_{ya}a^{<t>}+b_y)y^<t>=g2(Wyaa<t>+by) g1g_1g1可以使用tanhtanhtanh、ReLuReLuReLu，g2g_2g2可以使用sigmoidsigmoidsigmoid。

上图右边是向量化版本的实现，它将两个参数矩阵横向堆砌成[Waa∣Wax][W_{aa}|W_{ax}][Waa∣Wax]构成WaW_aWa，将两个输入纵向堆砌成[a<t−1>x<t>][\frac{a^{<t-1>}}{x^{<t>}}][x<t>a<t−1>](横线表示分隔符不是除法)。

Backward Propagation

循环神经网络的反向传播同其他网络一致，按反方向计算导数，编程时框架会自动帮我们处理反向传播，但了解其基本原理也是有助益的。

如上图所示，需注意，每一个横向上的参数矩阵是共享的，Wy、byW_y、b_yWy、by用于每次计算y<t>^\hat{y^{<t>}}y<t>^，Wa、baW_a、b_aWa、ba也用于每次计算x<t>x^{<t>}x<t>。

其损失函数使用的是交叉熵(cross entropy loss)。 L<t>(y^<t>,y<t>)=−y<t>logy^<t>−(1−y<t>)log(1−y^<t>))\mathcal{L}^{<t>}(\hat{y}^{<t>},y^{<t>})=-y^{<t>}log\hat{y}^{<t>}-(1-y^{<t>})log(1-\hat{y}^{<t>}))L<t>(y^<t>,y<t>)=−y<t>logy^<t>−(1−y<t>)log(1−y^<t>)) L(y^<t>,y)=∑t=1TL<t>(y^<t>,y<t>)\mathcal{L}(\hat{y}^{<t>},y)=\sum_{t=1}^{T}\mathcal{L}^{<t>}(\hat{y}^{<t>},y^{<t>})L(y^<t>,y)=t=1∑TL<t>(y^<t>,y<t>)