CS224d－Day 5: RNN快速入门

杨熹

发布于 2018-04-02 16:39:47

6080

发布于 2018-04-02 16:39:47

文章被收录于专栏：杨熹的专栏

CS224d－Day 5: 什么是RNN

本文结构：

1.什么是 RNN？和NN的区别？
2.RNN 能做什么？为什么要用 RNN？
3.RNN 怎么工作的？
4.RNN 基本模型存在某些问题？
5.GRU 和 LSTM 是什么？

1.什么是 RNN？和NN的区别？

RNN－(Recurrent Neural Networks)：循环神经网络

传统的神经网络模型，它是有向无环的，就是在隐藏层中各个神经元之间是没有联系的，而实际上我们的大脑并不是这样运作的，所以有了RNN模型，它在隐藏层的各个神经元之间是有相互作用的，能够处理那些输入之间前后有关联的问题。

2.RNN 能做什么？为什么要用 RNN？

RNN 在 NLP 中有广泛的应用，语言模型与文本生成(Language Modeling and Generating Text)，机器翻译(Machine Translation)，语音识别(Speech Recognition)，图像描述生成 (Generating Image Descriptions) 等。

3.RNN 怎么工作的？

参考：深入浅出讲解 SRN

用 SRN－(Simple RNNs) 这个最简单的 RNN 模型来举例说明一下它是怎样工作的：

SRN 做的事情就是，在一个时间序列中寻找这个时间序列具有的结构。例如，给一句话，这句话是把所有词串在一起没有空格，然后 SRN 要自动学习最小单元是什么，也就是它要学习哪些是单词，怎样的切割才可以被识别成是一个单词。

具体做法就是，在每个时间点时，预测下一个时间点是什么字母，SRN 的结果就是随着时间预测结果的误差，比如说，t＝0时字母是F，t＝1时预测是i，那误差就会减小，直到d，误差都是一直减小，但是下一刻预测结果是S，误差就会重新升高。就这样通过 SRN 这个模型就可以得到这个时间序列是由哪些词组成的。

模型结构就是有3层，输入层隐藏层和输出层，另外还有一个语义层，语义层的内容是直接复制上一时刻隐藏层的内容，然后它会返回一个权重矩阵，t 时刻的输入层和由 t－1 隐藏层复制过来的语义层一同作用到 t 时刻的输出层。

再具体点，把这个模型的环拆成线型来理解，在 t＝0 的时候，就是普通的神经网络模型，有3层，两个权重矩阵和 bias，到输出层，预测结果和目标结果计算误差，接着用 BP 去更新 W1 和 W2，但是在 t＝1 的时候，就有一个语义层，是从上一个时刻的隐藏层复制过来的，然后和此刻的输入层一起作用到隐藏层，再继续得到结果，再通过 BP 去更新 W1 和 W2。一直这样下去不断地迭代 W1，W2，theta，不断地跑这个时间序列，如果串的长度不到迭代次数，就首尾相连，直到收敛停止迭代。