批规范化,batch normalization,即著名的 BN 操作。
15年2月的论文:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift。
为了防止隐层的输入分布老是变来变去,BN让每个隐层节点的 激活输入分布 缩小到 (-1, 1) 。
Note:
BN的好处有:
简而言之:
Batch Normalization (BN) 计算公式:
通过经典的 chain rule 来学BN的参数:
[1] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift [2] Understanding Batch Normalization [3] Batch Normalization导读 [4] 深度学习中 Batch Normalization为什么效果好? [5] 解析卷积神经网络—深度学习实践手册 [6] 深度学习: gradient diffusion (梯度弥散)