前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >网络权重初始化方法总结(下):Lecun、Xavier与He Kaiming

网络权重初始化方法总结(下):Lecun、Xavier与He Kaiming

作者头像
李拜六不开鑫
修改2020-04-26 15:47:43
2.3K0
修改2020-04-26 15:47:43
举报
文章被收录于专栏:本立2道生本立2道生

目录

博客:blog.shinelee.me | 博客园 | CSDN

权重初始化最佳实践

前向传播
前向传播
反向传播
反向传播

书接上回,全0、常数、过大、过小的权重初始化都是不好的,那我们需要什么样的初始化?

  • 因为对权重w的大小和正负缺乏先验,所以应初始化在0附近,但不能为全0或常数,所以要有一定的随机性,即数学期望E(w)=0
  • 因为梯度消失和梯度爆炸,权重不易过大或过小,所以要对权重的方差Var(w)有所控制
  • 深度神经网络的多层结构中,每个激活层的输出对后面的层而言都是输入,所以我们希望不同激活层输出的方差相同,即Var(a[l])=Var(a[l−1]),这也就意味不同激活层输入的方差相同,即Var(z[l])=Var(z[l−1]);
  • 如果忽略激活函数,前向传播和反向传播可以看成是权重矩阵(转置)的连续相乘。数值太大,前向时可能陷入饱和区,反向时可能梯度爆炸,数值太小,反向时可能梯度消失。所以初始化时,权重的数值范围(方差)应考虑到前向和后向两个过程

权重的随机初始化过程可以看成是从某个概率分布随机采样的过程,常用的分布有高斯分布、均匀分布等,对权重期望和方差的控制可转化为概率分布的参数控制,权重初始化问题也就变成了概率分布的参数设置问题

在上回中,我们知道反向传播过程同时受到权重矩阵和激活函数的影响,那么,在激活函数不同以及每层超参数配置不同(输入输出数量)的情况下,权重初始化该做怎样的适配?这里,将各家的研究成果汇总如下,

weight initialization
weight initialization

其中,扇入fan_infan_in和扇出fan_out分别为当前全连接层的输入和输出数量,更准确地说,1个输出神经元与fan_in个输入神经元有连接(the number of connections feeding into the node),1个输入神经元与fan_out个输出神经元有连接(the number of connections flowing out of the node),如下图所示(来自链接),

MW33zn.png
MW33zn.png

对于卷积层而言,其权重为n个c×h×w大小的卷积核,则一个输出神经元与c×h×w个输入神经元有连接,即fan_in=c×h×wfan_in=c×h×w,一个输入神经元与n×h×w个输出神经元有连接,即fan_out=n×h×w

期望与方差的相关性质

全连接层方差分析

activation functions
activation functions
He initialization
He initialization

使用Xavier和He初始化,在激活函数为ReLU的情况下,test error下降对比如下,22层的网络,He的初始化下降更快,30层的网络,Xavier不下降,但是He正常下降。

Xavier vs He
Xavier vs He

He 2015 for PReLU

对于PReLU激活函数,负向部分为\(f(x) = ax\),如下右所示,

ReLU and PReLU
ReLU and PReLU

caffe中的实现

尽管He在paper中说单独使用fan_in或fan_out哪个都可以,但是,在Caffe的实现中,还是提供了两者平均值的方式,如下所示,当然默认是使用fan_in。

MSRA in Caffe
MSRA in Caffe

小结

至此,对深度神经网络权重初始化方法的介绍已告一段落。虽然因为BN层的提出,权重初始化可能已不再那么紧要。但是,对经典权重初始化方法经过一番剖析后,相信对神经网络运行机制的理解也会更加深刻。

以上。

参考

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-11-21 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 权重初始化最佳实践
  • 期望与方差的相关性质
  • 全连接层方差分析
    • He 2015 for PReLU
      • caffe中的实现
      • 小结
      • 参考
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档