前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于网络初始化不得不知的事

关于网络初始化不得不知的事

作者头像
炼丹笔记
发布2021-11-10 10:51:39
3680
发布2021-11-10 10:51:39
举报
文章被收录于专栏:炼丹笔记

作者:时晴

大家有遇到过自己网络不work的情况吗?很多时候我们都是直接使用开源代码,修改下输入数据就直接能work,但是如果让你从0开始写一个网络,会不会出现不收敛的情况呢?作为一个优秀的炼丹师,有些细节是需要了解清楚的,而不仅仅是拿现成网络改输入,调batch_size,学习率等.今天就来探讨下网络初始化对一个网络到底有多重要.

拿一个简单的网络举例,如下图所示,该网络包含一个隐层,该隐层有6个神经元,都是relu的激活函数,我们称之为网络A.

我们知道当输入都是正数,weights是以0为中心的,神经元是否激活就完全依赖weights,因为所有输入是正的,所以我们期望50%的情况下神经元是被激活的.我们做个模拟,让Xi~N(10,1),让Wi~N(0,1),我们会得到如下分布,我们发现很多时候,要么对于h0神经元要么不激活,要么就都激活:

再看看另一个极端的例子,数据是以0为中心的,但是weights全正,会得到如下分布,对于H0神经元而言,确实会有50%的概率被激活了,但是对所有神经元而言,要么所有神经元被激活,要么没有一个被激活:

这两种情况下模型就无法收敛了,从另一个角度可以从梯度上进行分析.

当所有输入数据是正的,权重以0为中心时:梯度的方向正的权重的方向是正的,负的权重方向都是负的,这限制了网络的表达能力,因为一开始网络初始化后就限定了网络的走向.

当数据以0为中心时,权重都是正的:梯度的方向完全取决于数据本身,这同样限制了网络的表达.

说到现在看起来只要把权重和数据都归一化到0附近,问题就解决了?当然没那么轻松.为了更逼近我们真实训练情况,我们再考虑bias,让Xi, wi, b~N(0, 1),如下图所示:

我们发现网络变的更“灵活”了,从上图左图可以看到一个指定的神经元被激活的数据比例分布在0.0~1.0了,但是我们如果shift上图的bias,网络就会失去“活性”.

调整bias的方差会调整尾部的分布:

如果初始化时数据和权重的方差(范围)太大,梯度可能太大,网络可能超出minimal cost。这类似于在渐变下降过程中选择过高的步长。

如果偏差的方差(范围)太大,我们会看到神经元完全打开或关闭。基于50%的数据,神经元很少被激活。

到目前为止都在讨论relu,常用的激活函数有很多,如果我们网络变成了多层,sigmoid和ReLU输出不是以零为中心且始终为正。因此,不建议在非常深怼网络的隐藏层中使用sigmoid或ReLU激活,因为它可能使得网络深层的神经元不激活。

其实对于不同的激活函数应该使用不同的初始化方法的,如tanh使用Xavier initialization,而Relu应该使用He initialization,至于为什么,感兴趣可以自己模拟下画出以上的分布图.

总结:

即使数据以零为中心,如果出现以下情况,网络仍可能冻结:

  • 权重和偏差不是以零为中心的。
  • 数据、权重或偏差的方差(范围)太大。
  • 非零中心激活函数用于网络的深隐藏层。

解决方案:

  • 增加一个偏差项,以随机化并尽可能减少网络中的重复工作。
  • 在隐藏层中使用以零为中心的激活,以帮助抵消先前层的非规范化,或在整个过程中保持规范化。
  • 数据、权重和偏差都是相互关联的,必须在初始化时一起仔细检查。
  • 使用多个隐藏层时使用BN。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 炼丹笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档