二阶优化算法通过考虑二阶相互影响来解决这个问题,但我们可以 看到,在非常深的网络中,更高阶的相互影响会很显著。...其中 μ 是包含每个单元均值的向量,σ 是包含每个单元标准差的向量。此处的算术 是基于广播向量 μ 和向量 σ 应用于矩阵 H 的每一行。...在每一行内,运算是逐元素 的,因此 Hi,j 标准化为减去 μj 再除以 σj。网络的其余部分操作 H′ 的方式和原网 络操作 H 的方式一样。
在训练阶段,
?...新参数很容易通过梯度下降来学习。
大多数神经网络层会采取形式 φ(XW + b),其中 φ 是某个固定的非线性激励函 数,如整流线性变换。...一层的输入通常是前一层的非线性激励函数,如整流线性函 数,的输出。因此,输入的统计量更符合非高斯,而更不服从线性操作的标准化。