什么是LSTM

哈喽,大家好,上一次我们了解了什么是卷积神经网络RNN,然后我又加上了我翻译的那一篇文章来简述了一下RNN和LSTM,今天,让我们来详细的了解下什么是LSTM。

首先提到RNN呢,我们自然会想到RNN所带来的弊端,因此人们为了解决这个弊端,因此人们引入了我们今天所要了解的对象LSTM。

LSTM是long short term memory的一种简称,中文名字呢又叫做长短期记忆,这是现在最流行的RNN的计算方式的其中的一种,在上一篇文章中,我介绍过RNN是在有序的数据中进行学习的,为了记住这些数据,RNN会对先前产生的数据进行一些记忆,就跟我们人类一样,但是一般形式的RNN一般来说还是会想我们人类中那些上了年龄的老爷爷,还是比较健忘的,为什么会这个样子呢?现在想象有这样的一种RNN:

X-RNN-Y

他的输入值X现在假设是一句话:“我今天要做酱猪蹄,首先要准备猪蹄,然后(此处省略一万字),最后一道美味的酱猪蹄就诞生了“,写着写着居然饿了。。。

回到正题,现在请RNN来进行分析,我们今天做了个什么菜呢?RNN可能会给了我们一个结果,我们今天做了个红烧排骨这个答案,因为这个答案很显然是错误的,现在RNN就开始进行学习,这个输入值X中和酱猪蹄的关系,而RNN所需要的数据酱猪蹄却出现在句子开头,那么RNN是应该怎么样学习的呢?酱猪蹄这个记忆点要经过长途跋涉才能够到达这个句子的句尾这个时间点,这样呢,我们就可以得到误差,然而当反向传递的时候得到的这个误差,他在每个句子的一个时间段都会乘以一个额外的参数,如果这个额外的参数小于1,现在假设是0.9,这个误差会一直一直的相乘,等到这个误差传到出发点的时候这个误差也会到一个接近0的数,所以对于初始时刻,误差就相等于消失了,我们把这个现象叫做梯度消失或者梯度弥散,反正如果W是一个大于1的数,比如1.1,不断垒乘,这样就可能会变成一个无穷大的数,rnn就会被这样的大误差给撑死了,我们就叫做这样的现象叫做梯度爆炸,这就是普通RNN没有办法回忆起久远记忆点的原因,这时候,LSTM就是为了解决这个问题产生的。

LSTM与普通RNN相比,多出来几个控制器,输入控制,输出控制,忘记控制,我们现在的结构如图中所示,左边的那个Hidden可以看做为我们进行操作时候的主线剧情,旁边的那些RNN体系可以看为分线剧情,这三个控制器都是在RNN的这个体系上,我们先看输入方面,如果现在的这个输入控制输入的数据足够的重要,RNN这个体系就会把这个数据汇集进入主线剧情,在进行分析,在看忘记方面,如果现在的分线剧情会改变了主线剧情的这个线索观点,那么忘记控制就会把一些主线剧情忘记,按比例替换成现在的新剧情,所以主线剧情的更新就会注意取决于输入和忘记这两个控制器,最后的输出方面,输出控制会基于现在的主线剧情和分线剧情判断要输出的什么,基于这些控制机制,LSTM就像是一种延缓记忆衰退的良药,带来更好的结果

好了,这就是LSTM的一个简短的介绍,如果想了解更多的只是,欢迎和我进行交流,也欢迎大家给出更好的建议,谢谢大家。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

AI 技术讲座精选:「Python」LSTM时序预测状态种子初始化

长短期记忆网络(LSTM)是一种强大的递归神经网络,能够学习长观察值序列。 LSTM的一大优势是它们能有效地预测时间序列,但是作这种用途时配置和使用起来却较为...

42650
来自专栏AI科技评论

开发 | 模型表现不好怎么办?37条妙计助你扭转局势

AI 科技评论按:读论文,看别人的模型的时候仿佛一切都顺利成章,可是等到自己训练模型的时候,麻烦一个接一个…… AI 科技评论找到了一篇国外大神 Slav Iv...

36460
来自专栏机器之心

从零开始,教初学者如何征战Kaggle竞赛

38160
来自专栏人工智能头条

分布式深度学习(I):分布式训练神经网络模型的概述

1.1K30
来自专栏AI科技评论

ACL2016最佳论文:通过整合基于路径的方法和分布式的方法,改善词对检测

摘要 在自然语言处理(NLP)中,理清词对关系是一项的关键任务 ,在一份使用两种互补方法的文献中也强调这一点。分布式方法:其监督式的变体是目前最好的任务执行器...

38250
来自专栏机器之心

学界 | 搜索一次就够了:中科院&图森提出通过稀疏优化进行一次神经架构搜索

作者:Xinbang Zhang, Zehao Huang, Naiyan Wang

19650
来自专栏Python中文社区

ALI的Tensorflow炼成与GAN科普

專 欄 ❈那只猫,Python中文社区专栏作者,Python中文社区新Logo设计人,纯种非CS科班数据分析人,沉迷Keras。在Cambridge做了点小事...

252100
来自专栏腾讯Bugly的专栏

基于 TensorFlow 在手机端实现文档检测

手机端运行卷积神经网络的一次实践 — 基于 TensorFlow 和 OpenCV 实现文档检测功能 1. 前言 本文不是神经网络或机器学习的入门教学,而是通过...

64540
来自专栏大数据文摘

安利一则深度学习新手神器:不用部署深度学习环境了!也不用上传数据集了!

17340
来自专栏企鹅号快讯

从零开始,教初学者如何征战全球最大机器学习竞赛社区Kaggle竞赛

在学习过深度学习的基础知识之后,参与实践是继续提高自己的最好途径。本文将带你进入全球最大机器学习竞赛社区 Kaggle,教你如何选择自己适合的项目,构建自己的模...

212100

扫码关注云+社区

领取腾讯云代金券