它的梯度去哪儿了?

斯坦福 NLP 第 9 课介绍了 RNN 语言模型的一个问题:梯度消失现象。那么什么是梯度消失? 为什么 RNN 会出现梯度消失呢? 梯度消失问题需要引起重视吗?下面依次回答这 3 个问题,希望能给读者带来一定启发。

首先介绍什么是梯度消失。下图是 RNN 模型的网络结构图,输入层是单词的词向量,隐含层中,节点间的权重都为 Wh ,且当前节点的输入We*Xi 加上前一个节点的输出 f(We*Xi-1 + Wh*hi-1) 作为下一个节点的输入。

设隐含层含有6000个神经元节点,神经元的个数与梯度的大小总和的关系如下图所示,从图中可以看出神经元的个数大约在0~400时,梯度大小的总和随着神经元个数增加而变大,但是随着个数继续增大,梯度总和的变化趋势变得平缓,最后几乎看不出变化,这种现象就是梯度消失。

为什么会出现梯度消失呢?这要从 RNN 的梯度计算公式说起,应用链式法则,符号含义对应文章第一幅图,求和公式中带框的偏导是关键,

仍然是链式法则求:

连乘有什么问题呢?没错,在 RNN 这种网络结构下,连乘会变得很小或很大,也就是说,梯度会消失或暴增。

梯度可以更深刻的理解为过去对将来的影响。当上面公式的梯度变为 0 时,我们不能区分:是否时步k 和 时步 t 间的数据真的就是没有关系的;或者,当前的权重参数还是有误的。如果属于后者,训练因为提前终止,而注定导致模型的预测精度不好,因此,梯度消失应该引起足够重视。


1) 回馈读者:吴恩达机器学习完整系列视频教程

2) 足够惊艳:神经网络可以逼近任意函数吗?

3) 深度学习|大师之作,必是精品

4) 免费送6本精选的算法,机器学习,深度学习的书

5) 机器学习、深度学习干货分享


原文发布于微信公众号 - Python与机器学习算法频道(alg-channel)

原文发表时间:2018-05-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【算法】基础机器学习算法

哲学要回答的基本问题是从哪里来、我是谁、到哪里去,寻找答案的过程或许可以借鉴机器学习的套路:组织数据->挖掘知识->预测未来。组织数据即为设计特征,生成满足特...

13440
来自专栏机器之心

学界 | 模型的泛化能力仅和Hessian谱有关吗?

经验表明,通过训练深度神经网络得到的不同局部最优值往往并不能以相同的方式泛化到未知数据集上,即使取得了相同的训练损失。近年来,这一问题日益受到经验和理论深度学习...

11120
来自专栏CDA数据分析师

干货 | 基础机器学习算法

本篇内容主要是面向机器学习初学者,介绍常见的机器学习算法,当然,欢迎同行交流。 ? 哲学要回答的基本问题是从哪里来、我是谁、到哪里去,寻找答案的过程或许可以借鉴...

20180
来自专栏机器之心

学界 | 更优的ImageNet模型可迁移性更强?谷歌大脑论文给出验证

作者:Simon Kornblith、Jonathon Shlens、Quoc V. Le

12210
来自专栏PPV课数据科学社区

[干货]基础机器学习算法

本篇内容主要是面向机器学习初学者,介绍常见的机器学习算法,当然,欢迎同行交流。 ? 哲学要回答的基本问题是从哪里来、我是谁、到哪里去,寻找答案的过程或许可以借...

28070
来自专栏机器之心

CVPR 2018 | 阿里巴巴浙大Poster论文:基于直推式无偏嵌入的零样本学习

作者:Jie Song、Chengchao Shen、Yezhou Yang、Yang Liu、Mingli Song

19900
来自专栏机器之心

解读 | 谷歌像素递归超分辨率研究:怎么消灭低分辨率图像马赛克?

机器之心原创 作者:Angulia 参与:王灏、hustcxy、吴攀 最近,谷歌发布了一种把低分辨率图像复原为高分辨率图像的方法,参见机器之心文章《学界 | ...

42290
来自专栏大数据挖掘DT机器学习

详细解释EM推导过程

1 最大似然概率 例子是说测量校园里面同学的身高分布,分为男生和女生,分别抽取100个人...具体的不细讲了,参考文档中讲得很详细。假设他们的身高是服从...

33570
来自专栏IT派

机器学习算法一览PPT

导语:本篇内容主要是面向机器学习初学者,介绍常见的机器学习算法,当然,欢迎同行交流。 ? 哲学要回答的基本问题是从哪里来、我是谁、到哪里去,寻找答案的过程或...

77590
来自专栏机器之心

学界 | 从可视化到新模型:纵览深度学习的视觉可解释性

选自arXiv 作者:张拳石、朱松纯 机器之心编译 参与:乾树、李泽南 在本篇论文中,来自 UCLA 的研究人员就目前有关理解神经网络表征和用可解释/分离式表征...

48250

扫码关注云+社区

领取腾讯云代金券