http://blog.csdn.net/u011239443/article/details/78088602
- 不要使用格子点调参,而应该使用随机点调参。因为格子点对于单一粒度
对于 alpha 的取值:
我们不应该如上述的方法取值,而应先划分(如下),再取值:
输入的0均值标准化:
隐藏层的0均值标准化:
当训练集中X发布改变的时候,需要重新训练模型:
我们吧某隐藏层之后的神经网络看成一个模型,可知就算是同分布的数据X从整个网络正向传播,由于W、b的变化,到了该隐藏层,输出分布也都会不同。所以Batch Norm 奏效就是由于避免的这种分布的不同而造成的问题:
最终预测的各个类别的概率之和不一定等于1: