【干货】GRU神经网络

前用的最多的三种神经网络是CNN,LSTM,GRU。其中,后两者都是RNN的变种,去年又给RNN发明了个SRU(优点是train RNN as fast as CNN),SRU以后再讲,目前先消化了这个GRU再说。

GRU,Gated Recurrent Unit,门控循环单元。意思大概理解就是在RNN上多加了几个门,目的和LSTM基本一样,为了加强RNN神经网络的记忆能力。

我们先来回忆下最初的SimpleRNN

其中a是记忆单元,g是激活函数,x是输入,b偏执bias,t是时间点。

画图就是这样的:

比如下面的一个机器翻译的例子。

单数cat和was相聚甚远,如果考虑到SimpleRNN的长时间记忆会导致梯度消失的重大问题,有些人就在论文中提出了 GRU (Simplified)简化版。

首先,GRU的记忆单元是C

(也就是说上面的simpleRNN的a的功能给了C,主要是为了和LSTM区别开)

进入单元后,将用C~代替C:

重点来了,GRU的真正重要的思想是有一个

gamma u门,这个是希腊文,你看这个多像门呀,u代表update更新的意思,可以说这个是更新门。

因为

要设置在0-1之间,所以用的是sigmoid激活函数。实际中,

经常非常接近0或1。

我们假设cat,用一个bit记录这个特征,单数设为1,复数的话设为0。(真正网络中会有自己独特的特征记法)

我们希望这个记忆单元C=1能一直保留到was那里,如

即使不是1,实际上也不可能不变是1的,但是只要和1别差距太大就行。其他的特征让C中用其他的参数记录就行,别影响我cat的就行。

那么怎么才能保证cat的特征单元不变呢?这就用到下一个门了:

看上面的公式,我们想,怎么才能让C_t依然等于C_t-1时刻呢?那么就是

等于0的时候(这个肯定是理想情况了)

这个时候时间到了was这里时,C中还记着cat单数的事呢。而实际上,

是个负很大的数,也就是经过sigmoid后接近0了。所以,上述的情况是可以的。

到这里,这个简化版的GRU基本讲完了,看看可视化单元:

公式为:

是不是也看到简化俩字了?

是的没错,经过研究者的不断探究,终于研究出来一种适合几乎各种研究实验的新型GRU网络是这样的:

这个GRU可以经过经过更加深度的训练而保持强壮记忆力!

这里的第一个公式:

gamma r的这个r可以表示为relevance相关性,也就是新的t时刻的记忆单元C~和t-1时刻的记忆单元C的相关性。

而这个

是什么矩阵呢?刚好第三个式子

解释了

的意思,其中W_r是新的参数。

好啦,这里就真的讲完了。


以上来自自己学习Andrew课程的笔记。

原文发布于微信公众号 - 深度学习自然语言处理(zenRRan)

原文发表时间:2018-03-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏信数据得永生

《Scikit-Learn与TensorFlow机器学习实用指南》第15章 自编码器

4027
来自专栏ATYUN订阅号

基于递归网络的语言模型

在使用像LSTM或GRU这样的递归神经网络时,有许多设计决策要做。我进行了一些实验,看看在Text8数据集中运行效果如何(数据集:http://mattmaho...

3125
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 11 - 74行Python实现手写体数字识别

到目前为止,我们已经研究了梯度下降算法、人工神经网络以及反向传播算法,他们各自肩负重任: 梯度下降算法:机器自学习的算法框架; 人工神经网络:“万能函数”的形...

8046
来自专栏专知

深度学习文本分类方法综述(代码)

【导读】本文是数据科学家Ahmed BESBES的一篇博文,主要内容是探索不同NLP模型在文本分类的性能,围绕着文本分类任务,构建当前主流的七种不同模型:用词n...

1.1K3
来自专栏机器之心

学界 | Nested LSTM:一种能处理更长期信息的新型LSTM扩展

2869
来自专栏PaddlePaddle

【序列到序列学习】无注意力机制的神经机器翻译

生成古诗词 序列到序列学习实现两个甚至是多个不定长模型之间的映射,有着广泛的应用,包括:机器翻译、智能对话与问答、广告创意语料生成、自动编码(如金融画像编码)...

3699
来自专栏人工智能头条

递归神经网络不可思议的有效性(上)

3064
来自专栏Coding迪斯尼

用深度学习实现自然语言处理:word embedding,单词向量化

前几年,腾讯新闻曾发出一片具有爆炸性的文章。并不是文章的内容有什么新奇之处,而是文章的作者与众不同,写文章的不是人,而是网络机器人,或者说是人工智能,是算法通过...

1031
来自专栏机器之心

教程 | 深度学习:自动编码器基础和类型

37116
来自专栏ATYUN订阅号

神奇!无需数据即可进行机器翻译操作

在日常工作中,深度学习正在被积极地使用。与其他机器学习算法不同的是,深度网络最有用的特性是,随着它获得更多的数据,它们的性能就会有所提高。因此,如果能够获得更多...

3426

扫码关注云+社区

领取腾讯云代金券