深度学习: gradient diffusion (梯度弥散)

Introduction

从文章《梯度弥散》摘来的一段话:

梯度下降法(以及相关的L-BFGS算法等)在使用随机初始化权重的深度网络上效果不好的技术原因是:梯度会变得非常小。具体而言,当使用反向传播方法计算导数的时候,随着网络的深度的增加,反向传播的梯度(从输出层到网络的最初几层)的幅度值会急剧地减小。结果就造成了整体的损失函数相对于最初几层的权重的导数非常小。这样,当使用梯度下降法的时候,最初几层的权重变化非常缓慢,以至于它们不能够从样本中进行有效的学习。这种问题通常被称为“梯度的弥散”.

Summary

  • 最早期的神经网络往往都只有两三层,最大的瓶颈就在于梯度弥散
  • 2012年有了 合理的参数初始化 & 提出 Relu激活函数 后,成功 “ 缓解 ”了该问题,深度的天花板第一次被打破;
  • 但网络更深的时候,梯度弥散就会死灰复燃。这时候就需要 identity mapping 来第二次打破深度的天花板;
  • BN因为在前馈的时候缩放了输入空间,而前馈时的输入空间又直接影响了反馈计算时的梯度状况。所以说,BN其实帮助减缓了梯度问题。

[1] 深度学习: Batch Normalization (归一化)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

推荐 | 图解机器学习

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 源 | ynaughty 每当提...

4115
来自专栏生信小驿站

黑箱方法 支持向量机①

支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及...

812
来自专栏机器之心

学界 | 新型循环神经网络IndRNN:可构建更长更深的RNN(附GitHub实现)

选自arXiv 作者:Shuai Li等 机器之心编译 参与:张倩、黄小天 近日,澳大利亚伍伦贡大学联合电子科技大学提出一种新型的循环神经网络 IndRNN,不...

3645
来自专栏数据派THU

一文读懂卷积神经网络CNN(学习笔记)

来源:机器学习算法与自然语言处理 作者:白雪峰 本文为图文结合,建议阅读10分钟。 本文为大家解读如何简单明了的解释卷积,并且分享了学习中的一些方法案例。 首...

3236
来自专栏人工智能LeadAI

译文 | 简明 TensorFlow 教程:所有的模型

01 概述 在本文中,我们将讨论 TensorFlow 中当前可用的所有抽象模型,并描述该特定模型的用例以及简单的示例代码。 完整的工作示例源码(https:/...

4567
来自专栏机器之心

资源 | 如何只用NumPy码一个神经网络

注:本文将包含大量用 Python 编写的代码片段。希望读起来不会太无聊。:)所有源代码都可以在作者的 GitHub 上找到。链接:https://github...

842
来自专栏CreateAMind

Efficient Deep Learning for Stereo Matching:代码

在今年6月于美国拉斯维加斯召开的CVRP大会上,多伦多大学的Raquel Urtasun教授和她的学生改进了深度学习中的Siamese网络,用一个内积层代替了拼...

1602
来自专栏marsggbo

Andrew Ng机器学习课程笔记--week8(K-means&PCA)

Unsupervised Learning 本周我们讲学习非监督学习算法,会学习到如下概念 聚类(clustering) PCA(Principal Comp...

2069
来自专栏企鹅号快讯

一文读懂卷积神经网络CNN

来源:机器学习算法与自然语言处理 作者:白雪峰 本文为图文结合,建议阅读10分钟。 本文为大家解读如何简单明了的解释卷积,并且分享了学习中的一些方法案例。 首先...

3506
来自专栏大数据挖掘DT机器学习

机器学习中,正则化是怎么回事?

在机器学习中最大的危险就是过拟合,为了解决过拟合问题,通常有两种办法,第一是减少样本的特征(即维度),第二就是我们这里要说的“正则化”(又称为“惩罚”,pen...

3076

扫码关注云+社区

领取腾讯云代金券