举一个简单的例子,假设我们有一个深度神经网络,每一层只有一个单元,并且在每个隐藏层不使用激励函数:
yˆ = xw1w2w3 . . . wl。这里,wi 表示用于层 i 的权重。...输出 yˆ 是输入 x 的线性函数,但是权重 wi 的非线性函数。假设我们的代价函数 yˆ 上的梯度为 1,所以我们希望稍稍降低 yˆ。然后反向传播算法可以计算梯度 g = ∇wyˆ。...至关重要的是,我们反向传播这些操作,计算均值和标准差,并应用它们 于标准化 H。这意味着,梯度不会再简单地增加 hi 的标准差或均值;标准化操作会 除掉这一操作的影响,归零其在梯度中的元素。...使用batch normalization后,我们得到的归一化 hˆl−1 恢复了零均值和单位方差的特性。对于底层的几乎任意更新而言,hˆl−1 仍然保持着单位高斯。...改变某个低层权重为 0,可能退化输出;改变低层权重的符号可能反 转 hˆl−1 和 y 之间的关系。这些情况都是非常罕见的。没有标准化,几乎每一个更新 都会对 hl−1 的统计量有着极端的影响。