前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Long Short term memory unit(LSTM)

Long Short term memory unit(LSTM)

作者头像
Steve Wang
发布2019-05-26 15:01:20
5140
发布2019-05-26 15:01:20
举报
文章被收录于专栏:从流域到海域从流域到海域

整理并翻译自吴恩达深度学习系列视频:序列模型第一周。

Prerequisite:Gated Recurrent Unit(GRU)

Long Short term memory unit(LSTM)

GRU 和 LST的对比。

LTSM计算公式如下:

C~<t>=tanh(WcC<t−1>,x<t>+bc)\tilde{C}^{<t>}=tanh(W_cC^{<t-1>}, x^{<t>}+b_c)C~<t>=tanh(Wc​C<t−1>,x<t>+bc​)

Γu=σ(WuC<t−1>,x<t>+bu)\Gamma_u=\sigma(W_uC^{<t-1>}, x^{<t>}+b_u)Γu​=σ(Wu​C<t−1>,x<t>+bu​)

Γf=σ(WfC<t−1>,x<t>+bf)\Gamma_f=\sigma(W_fC^{<t-1>}, x^{<t>}+b_f)Γf​=σ(Wf​C<t−1>,x<t>+bf​)

Γo=σ(W0C<t−1>,x<t>+bo)\Gamma_o=\sigma(W_0C^{<t-1>}, x^{<t>}+b_o)Γo​=σ(W0​C<t−1>,x<t>+bo​)

C<t>=ΓuC~<t>+(1−Γu)C<t−1>C{<t>}=\Gamma_u\tilde{C}^{<t>}+(1-\Gamma_u)C^{<t-1>}C<t>=Γu​C~<t>+(1−Γu​)C<t−1>

a<t>=Γo∗C<t>a{<t>}=\Gamma_o*C^{<t>}a<t>=Γo​∗C<t>

LSTM有三个门控值,使用Γf\Gamma_fΓf​替换GRU里的1−Γu1-\Gamma_u1−Γu​,并且增加一个新的Γo\Gamma_oΓo​来控制输出的值。

LSTM的图示结构如下图所示:

如图红色直线所示,只要三个门控值Γu\Gamma_uΓu​、Γf\Gamma_fΓf​、Γo\Gamma_oΓo​设置得当,我们需要的信息可以一直向后传递。

这种结构的常见变种是peephole connection,即计算门控值时,也使用了前一层的C<t−1>C^{<t-1>}C<t−1>,如图中绿色圈起来的部分。

GRU其实是LSTM的一种简化版本,事实上LTSM先于GRU被发明出来。

GRU只有2个门控值,简单,计算快,可以扩展到更大的模型上;LSTM有三个门控值,更强大,更灵活。历史上,LTSM经常被当做首位的默认选择,但最近几年GRU获得了很多团队的支持,因为它很简单,也能做出很好地效果,更容易扩展到更大的问题。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019年01月16日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Long Short term memory unit(LSTM)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档