对于Dropout来讲,给每个隐藏单元一定概率置零的可能,这样就相当于给网络引入了噪声。迫使Dropout后部单元不过分依赖于前面任何一个隐藏单元。
而BN,因为是在Mini-batch上计算mean、variance,而不是整个数据集上。均值和方差有一些小噪音,在进行缩放过程,γ、β也会引入噪声,这样和dropout类似,它往每个隐藏层的激活值上增加了噪音,所以起到了一定的正则化作用。
当mini-batch变大时,由于均值方差更加接近真实值,所以噪声会减小,就会减少正则化的效果。
\[ Z=WX+b \] 无论b为何值,去均值之后结果都是一样的,所以说,使用Batch Norm时可以不使用偏置b。 这个偏置的效果在标准化中缩放过程中能体现。 \[ \tilde{Z} = \gamma Z+\beta \]