[DeeplearningAI笔记]序列模型1.10-1.12LSTM/BRNN/DeepRNN

演化计算与人工智能

发布于 2020-08-14 14:32:48

3440

发布于 2020-08-14 14:32:48

文章被收录于专栏：人工智能与演化计算成长与进阶

5.1 循环序列模型

“吴恩达老师课程原地址[1]

1.10 长短期记忆网络(Long short term memory)LSTM

“Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.

门控循环神经网络单元 GRU

长短期记忆网络 LSTM

记忆细胞更新:

\breve{C}^{t}=tanh(W_c[a^{t-1},x^{t}]+b_c)

更新门:

\gamma_u=\sigma(W_u[a^{t-1},x^{t}]+b_{u})

遗忘门--遗忘门在 GRU 中相当于

(1-\gamma_u)

,在 LSTM 中使用专用的

\gamma_f

代替:

\gamma_f=\sigma(W_f[a^{t-1},x^{t}]+b_{f})

输出门:

\gamma_o=\sigma(W_o[a^{t-1},x^{t}]+b_{o})

记忆细胞:

c^{t}=\gamma_u * \breve{c}^{t} + \gamma_f * c^{t-1}

a^{t}=\gamma_o * tanh(c^{t})

1.11 双向神经网络 Bidirectional RNN

这个模型可以让你在序列的某处不仅可以获取之前的信息，还可以获取未来的信息

在这个句子中，根据原始的模型，并不能区别泰迪熊和美国前总统泰迪的区别。必须要使用到 Teddy 词后的信息才能识别出 Teddy 的意义。无论这些单元是标准的 RNN 块还是 GRU 单元或者是 LSTM 单元，前向的结构都不能够识别出 Teddy 的意义。
双向神经网络结构如下图所示:

这样的网络构成了一个无环图，其中信息的流向，如下动图中显示:

1.12 深层循环神经网络 Deepl RNNs

通过计算

a^{[2]<3>}

的值来了解 RNN 的计算过程，

a^{[2]<3>}

有两个输入，一个是从下面传上来的

a^{[1]<3>}

,一个是从左边传进来的输入

a^{[2]<2>}

a^{[2]<3>}=g(W_a^{[2]}[a^{[2]<2>},a^{[1]<3>}]+b_a^{[2]})

对于普通的神经网络，也许可以经常看见 100 层神经网络，但是对于 RNN 来说，有三层就已经有很多参数了，因为有时间的维度，RNN 会变得相当大，一般很少会看见 RNN 堆叠到很深的层次。
但是深层次的预测却经常见到，即第三层的输出会连接上更深的层，但是水平方向上却不相连

参考资料

[1]

吴恩达老师课程原地址: https://mooc.study.163.com/smartSpec/detail/1001319001.htm

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-05-29，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络

机器学习

深度学习

人工智能

本文分享自 DrawSky 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度