关于权值初始化Xavier Initialization的细节探讨

非常抱歉,小姐姐的代码已经超过两周没有任何进展了,导致最近很低谷。。。刚刚一刷公众号后台,发现有一位工友的留言已经没办法回复了,所以决定为了他更个新,希望你能看见!

关于Xavier Initialization的详细解释在这里(如何训练神经网络——权值初始化weight initialization),它的产生背景就是在前人各种试初始化都不成功的情况下,一个叫Xavier的guy说我告诉你们,根据样本量缩放一下很有效,但是呢,Xavier Initialization是基于激活函数是线性函数的基础上推出来的(公式怎么推出来的不知道,真的不知道,小姐姐最近叫“you know nothing小姐姐”)。

那我们常用的激活函数ReLU,它是非线性的,具体地说,它是正数部分呈线性、负数部分为0,如下图所示:

那么这位小同学的问题就出现在这里,对于Xavier Initialization的改进,为什么是乘以一个1/2的因子,如果不是一半的节点休眠,这样的算法还有没有效?

我的理解是这样子的:根据ReLU函数的特性,它相对于原点来说,一半永远线性,另一半为0的(也可以说非线性吧),所以从统计的角度考虑,每当经过一次ReLU,只要你的输入值是以0为原点呈对称性的(这也是我们想要的初始权值的理想情况),那么大概率就是经过以后一半要挂掉的。。。所以每当过一次就默认为节点休眠一半,总样本量减半,还是蛮有道理的。。。你觉得呢?

最后,后台没有聊天机器人,后台的自动回复都是小姐姐用穷举法一条一条 “if...then...” 敲进去的。。。您就别玩儿了

各位亲们不要害羞,有事在帖子下面留言嘛,留言随时可以回复,后台消息超过48小时就不能再回了。不要怕,小姐姐的粉丝量很小,万一你在这里问了很low的问题,我想也不会被熟人发现的。。。哈哈哈(我答得很low所有认识我的人都能看见我都不怕呢哼)!以上!

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171209G0Q2AH00?refer=cp_1026

相关快讯

扫码关注云+社区