这意味着,梯度不会再简单地增加 hi 的标准差或均值;标准化操作会 除掉这一操作的影响,归零其在梯度中的元素。这是batch normalization方法的一个 重大创新。...在测试阶段,μ 和 σ 可以被替换为训练阶段收集的运行均值。这使得模型可以 对单一样本评估,而无需使用定义于整个minibatch的 μ 和 σ。...只在少数个例中,低 层会有影响。改变某个低层权重为 0,可能退化输出;改变低层权重的符号可能反 转 hˆl−1 和 y 之间的关系。这些情况都是非常罕见的。...新参数很容易通过梯度下降来学习。
大多数神经网络层会采取形式 φ(XW + b),其中 φ 是某个固定的非线性激励函 数,如整流线性变换。...一层的输入通常是前一层的非线性激励函数,如整流线性函 数,的输出。因此,输入的统计量更符合非高斯,而更不服从线性操作的标准化。