专栏首页Python编程 pyqt matplotlib长短时记忆网络(LSTM)

长短时记忆网络(LSTM)

  • 长期依赖问题

RNN最主要的问题就是长期依赖问题,也就是RNN很容易接受和处理最近的上下文信息,比如“天气预报说明天早上要下大雨,出门一定要记得带_____。”像这样的短期信息,由于相关信息“下大雨”和要填的词之间的距离比较短,RNN就可以很容易地学会利用过去的信息,预测出来_____里面应该填“雨伞”。可是当有些时候当相关的信息距离需要预测的位置比较远时,比如:“我出生在中国,但是后来随父母移民到了美国,我......(省略200个字),因此我能讲一口流利的_____。” 现在再用RNN来预测_____里面的词时就存在一定的困难,依靠最近的信息很难预测出下一个词是什么。

为什么RNN 不可以很好的解决长期依赖问题呢?可以参考下面的公式:

也就是说,序列过长时,RNN会出现梯度消失或者梯度爆炸。或者在复杂语言场景中,有用信息的间隔有长有短,RNN的性能也会受到限制。长短时记忆网络(long short term memory,LSTM)的设计就是为了解决这个问题。

  • LSTM网络结构

其实,长短时记忆网络的思路比较简单。原始RNN的隐藏层只有一个状态,即h,它对于短期的输入非常敏感。那么,假如我们再增加一个状态,即c,让它来保存长期的状态,那么问题不就解决了么?如下图所示:

新增加的状态c,称为单元状态(cell state)。我们把上图按照时间维度展开:

  • LSTM 前向传播
  • LSTM训练算法框架
  • LSTM 公式推导

本文分享自微信公众号 - Python编程 pyqt matplotlib(wsplovePython),作者:wsp

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-01-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Numpy常用属性和函数(三)

    如果向量v与变换A满足Av=λv,则称向量v是变换A的一个特征向量,λ是相应的特征值。

    用户6021899
  • 循环神经网络(RNN)简介

    之前介绍的全连接神经网络和卷积神经网络的模型中,网络结构都是从输入层到各隐藏层再到输出层,层与层之间是全连接(或者部分连接)的,但每层之间的节点是无连接的。

    用户6021899
  • matplotlib 3D 绘图(一)

    用户6021899
  • 如果你还没搞懂LSTM 网络,那本文绝对值得一看

    本文作者Christopher Olah是Google Brain的研究科学家,她在文中图文并茂地解释了什么是LSTM网络,为什么要用LSTM网络,以及LSTM...

    AI科技大本营
  • [译] 理解 LSTM 网络

    用户1107453
  • 理解 LSTM 网络

    用户1737318
  • 《白话深度学习与Tensorflow》学习笔记(3)HMM RNN LSTM

    RNN:循环神经网络 与CNN最大的不同是记忆暂存功能,可以把过去输入的内容所产生的远期影响量化后与当前时间输入内容一起反应到网络中参与训练。尤其是对时间序列、...

    微风、掠过
  • 干货 | 元旦,一起NLP!(下)

    0.Roadmap 1. 模型 | 语言模型与词嵌入 2. 模型 | LSTM 3. 盘点 | 那些顶级会议 4. 模型 | Seq2Seq 和 Attenti...

    AI科技评论
  • 能模仿韩寒小四写作的神奇递归神经网络(附代码)

    大数据文摘
  • 循环神经网络(一) ——循环神经网络模型与反向传播算法

    循环神经网络(一) ——循环神经网络模型与反向传播算法 (原创内容,转载请注明来源,谢谢) 一、概述 这一章开始讲循环神经网络(RNN,Recurrent Ne...

    用户1327360

扫码关注云+社区

领取腾讯云代金券