深度学习与统计力学(IV) ：深层网络的信号传播和初始化

数据科学人工智能

发布于 2022-03-31 18:19:02

9010

发布于 2022-03-31 18:19:02

谷歌和斯坦福最新合作综述报告，发表在物理学的顶级期刊“凝聚态物理年鉴”（Annual Review of Condensed Matter Physics）。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli 本公众号将对本报告进行翻译，分6次发布。

系列预告

深度学习与统计力学(I) ：深度学习中的基础理论问题
深度学习与统计力学(II) ：深度学习的表达能力
深度学习与统计力学(III) ：神经网络的误差曲面
深度学习与统计力学(IV) ：深层网络的信号传播和初始化
深度学习与统计力学(V) ：深度学习的泛化能力
深度学习与统计力学(VI) ：通过概率模型进行“深度想象”

在对公式(3)的误差曲面运行梯度下降之前，我们必须要选择参数 \mathbf{w} 的初始配置。\mathbf{w} 对应公式(1)神经网络中所有 D 层中的权重和偏置 \{\mathbf{W}^l,\mathbf{b}^l\}_{l=1}^{D} 。通常，这些参数的初始值是随机选择的。权重\mathbf{W}^l_{ij} 从一个零均值方差为 \sigma^2_w/N_{l-1} 的高斯分布中独立同分布采样，其中 N_{l-1} 为突触前层的神经元数量。偏置则是从一个零均值方差为 \sigma^2_b 的高斯分布中独立同分布采样。权重和偏置的相对尺度确保两者在同等的基础上影响突触后活动，即使对于大的N_{l-1} 。

一些自然的问题是：如何选择方差 \sigma^2_w 和 \sigma^2_b 来加速学习？非高斯分布的权重比高斯分布的权重更优吗？ 在本节我们将介绍一些工作，通过对这种随机深层网络中的信号传播的理论理解得到的非平凡初始化模式效果显著优于实践中常用的初始化方法。

1 随机神经网络中的动态相变

随机网络中的信号传播理论在一个大宽度的平均场极限（即对所有的 l , N_l 都很大）下得到简化。文献(60)将只包含一个隐含层的这种宽神经网络与高斯随机过程之间建立了联系。

在大宽度极限下，我们可以得到自平均性质：即在固定的权重和偏置下， l 层的输入 \mathbf{h}_{i}^{l} 在神经元 i 上的经验分布等于随机选择权重和偏置时某个固定神经元i 的输入 \mathbf{h}_{i}^{l} 的分布。

进一步地，对于足够规则的非线性函数 \phi , 当网络宽度足够大时，上述两个分布均收敛为高斯分布[29,61]。在这种极限情况下，输入的前向传播和误差的后向传播都表现出动态相变，且是 \sigma^2_w 和 \sigma^2_b 的函数。

1.1 输入的前向传播

为了从输入的前向传播的视角来理解动态相变，考虑一个K 个输入向量集 \{\mathbf{x}^{0,a}\}^K_{a=1} ，其传播到 l 层的输入向量集为 \{\mathbf{h}^{l,a}\}^K_{a=1} 。我们可以通过矩阵的内积来描述这个点云的几何形状

\mathbf{\Sigma}_{ab}^{l} = \frac{1}{N_l} \sum_{i=1}^{N_l} \mathbf{h}^{l,a}_i \mathbf{h}^{l,b}_i. \quad (7)

在大宽度平均场极限下，当点云通过网络的层进行传播时，我们可以通过一组从 \mathbf{\Sigma}_{ab}^{l'} 计算 \mathbf{\Sigma}_{ab}^{l} （l' < l ）的确定递归关系来追踪点云的几何形状。注意，这些递归关系只与 \sigma^2_w ，\sigma^2_b 和非线性函数 \phi

有关[29,31,62]。这种递归关系有一个很大的深度不动点，对于具有置换对称输入的全连接网络，其形式为[29]

\lim_{l \rightarrow \infty} \frac{\mathbf{\Sigma}_{ab}^{l}}{\zeta(l)} = q^* [( 1 - c^*) \delta_{ab} + c^*]. \quad (8)

这里 \zeta(l) 是一个整体缩放函数，它解释了输入的无限增长导致的无限非线性或残差连接。实际上在大深度上，任何置换不变的点云收敛到所有点的归一化长度为 q^* 且所有对之间的余弦角为 c^* 的点云。

在不动点处的小的偏离 \delta \Sigma^l = \Sigma^l - \Sigma^* 满足线性递归关系 \delta \Sigma^l \approx \mathbf{\chi} \delta \Sigma^{l-1} 。从而我们可以看到：当矩阵 \mathbf{\chi}

的特征值 \lambda 绝对值小于1时，点云动力学指数级收敛；当矩阵 \mathbf{\chi} 的特征值 \lambda 绝对值大于1时，点云动力学指数级发散。

对于稳定的不动点，即所有特征值的绝对值都小于1，关系\lambda^l = e^{-l/\xi_\lambda} 隐式地定义了一个深度尺度 \xi_\lambda 。在这个深度尺度下，\Sigma^l 的相关特征模收敛到 \Sigma^* [31]。全连接网络有两个深度尺度，分别与长度 q^* 和余弦夹角 c^* 相关，且长度收敛地比角度更快[29,31]。对于卷积网络，不同的傅里叶模对应不同的深度尺度[63]。

对于不动点形式为公式(8)的全连接网络，在光滑有界非线性函数 \phi 下，当固定 \sigma^2_b 增大 \sigma^2_w 时表现出相变（见图1a）。当 \sigma^2_w 很小时，c^* = 1 的不动点是稳定的（意味着所有的临近点都收缩为一个点）。而当 \sigma^2_w 很大时，该不动点不再稳定，此时另一个 c^* < 1 的不动点变得稳定（意味着临近点以非零角度混沌不相关，如图1b所示）。在临界转换点，深度尺度 \xi 发散，这意味着信号的前向传播保留了初始输入几何形状的深记忆轨迹。

有趣的是，这种输入几何形状的信息传播的发散深度尺度与训练极深的临界网络的能力相吻合[31]（如图3所示）。此外，在远离临界点时，可靠的前向信息传播的深度尺度决定了神经网络可以训练的深度。这种临界相变、发散的深度尺度和临界状态下的深度可训练性不仅在全连接网络中观察到[31]，而且还在卷积网络[63]，自编码器[64]和循环网络[65,66]中观察到。

图3 信号传播预测可训练性。每个子图显示当模型的超参数在二维网格上变化时，预测准确性从完美（红色）到随机猜测（黑色）的变化。白线显示在每种情况下决定可训练性的数量的平均场预测。总的来说，我们在广泛的体系结构中看到了极好的一致性。(a) 全连接网络与信号传播的深度尺度的比较。(b) 残差网络在常数梯度范数时的比较曲线。(c) 具有深度尺度的卷积网络用于信号传播。(d-e) 包含信号传播时间尺度的循环神经网络。(f) 具有用于梯度爆炸的深度尺度的批量标准化的全连接网络。更多细节见文献31。

当相同的网络使用无界非线性函数，例如 ReLU 时，则表现出一个有界相位（\zeta(l) = 1 ）和无界相位（\zeta(l) = l ）之间的相变[67]。这种相变来源于非线性函数（将一些输入截断为0）和权重（可通过 \sigma^2_w

来扩展或收缩输入）之间的竞争。总的来说，识别深度尺度发散的临界初始值的理论提供了非常有用的视角帮助非线性函数的设计、初始化模式、正则化模式和网络架构选择，以加速极深的神经网络的训练[31,63-66,68-71]。

1.2 误差信号的后向传播

训练深层网络的一个关键想法是往希望的方向移动每一层的权重 \mathbf{W}^l 和激活量 \mathbf{x}^l ，以及最后一层的输出\mathbf{x}^D 。一个确定如何改变 \mathbf{x}^l 来移动 \mathbf{x}^D 的基本线性算子是雅可比矩阵 \frac{\partial \mathbf{x}^D}{\partial \mathbf{x}^l} 。这个雅克比矩阵是输出误差向 l 层权重进行后向传播的关键组件。该雅可比矩阵是一个随机矩阵，其谱特性与训练的成败密切相关。例如，考虑以下完全端到端的输入输出雅克比矩阵：

\mathbf{J} = \frac{\partial \mathbf{x}^D}{\partial \mathbf{x}^0} = \prod_{l=1}^{S} \mathbf{D}^l \mathbf{W}^l. \quad (9)

这里 \mathbf{D}^l 是一个对角矩阵，其元素为 D_{ij}^l=\phi'(h^l_i)\delta_{ij} 。该雅克比矩阵决定了误差 \mathbf{e} 或者输出 \mathbf{x}^D 的移动方向，如何后向传播到输入的移动方向 \Delta {\mathbf{x}^0}^T = \mathbf{e}^T \mathbf{J} 。反向传播引起的增长可以表示为\Vert \mathbf{e}^T \mathbf{J} \Vert^2_2 / \Vert \mathbf{e}\Vert^2_2 ，当 \mathbf{e} 各个元素是独立同分布的随机选取时，其平均值为 \text{Tr} \mathbf{J} ^T \mathbf{J} 。相反在无限宽平均场极限下，这种增长变为自平均，并且在不同网络间不会有明显的波动。因此我们可以将增长率 \chi 定义为公式(1)的随机网络参数 \{\mathbf{W}^l,\mathbf{b}^l\}_{l=1}^{D} 的平均值：

\begin{aligned} \chi^D &= \frac{1}{N_0}\langle \text{Tr} \mathbf{J} ^T \mathbf{J} \rangle ,\\ \chi &= \frac{1}{N_0}\langle \text{Tr} (\mathbf{DW}) ^T (\mathbf{DW}) \rangle. \quad (10) \end{aligned}

这里每一层神经元数量都一样，即对所有 l 都有 N_l = N_0 。因此 \chi 是一层到下一层的雅克比矩阵 \mathbf{DW} 的奇异值的平方和的均值。这个局部算子反映随机选择的反向传播误差 \mathbf{e} 的平均乘性增长（\chi < 1 ）或收缩（\chi > 1 ）。这种增长或收缩随着网络深度 D 指数级传播。

文献31表明，在全连接网络中，误差的后向传播和输入的前向传播密切相关。因此当公式(8)中 c^*=1 的前向传播的不动点是稳定的（即图1a中的有序域）时，邻近输入点将会很接近因为它们前向和向后传播的误差指数级消失。这种性质可以推广到其他的网络[62]，包括卷积网络[63]和循环网络[65,66]。可见在临界点进行初始化，例如有序和混沌的边界区域，通常能够加速训练以及获得更好的性能[31,63-66,68-71]。

除了为初始化带来新的见解，对信号传播和梯度后向传播的平均场分析为深度学习的一些其他现象带来新的解释。这些现象包括对抗样本的本质[72]，Fisher 信息的特征值[73]，权重量化的效果[74]，以及基于图神经网络的图分割[75]等。

2 动力等距与自由概率理论

上一小节我们已经显示公式(9)中的雅克比矩阵 \mathbf{J} 的奇异值的平方和的均值随着 \chi^D 而增长，其中 \chi 见公式(10)。因此 \chi=1 的临界初始值避免了随机选择的误差信号 \mathbf{e} 的指数级爆炸或增长。然而这并不意味着在所有可能的误差信号 \mathbf{e} 中最坏情况下的最大增长和最小收缩不会随着网络深度而增长或收缩。最大的增长因子和最小的收缩因子分别由\mathbf{J} 的最大和最小奇异值决定。因此可以猜想，除了在初始化时保证 \mathbf{J}

的奇异值的平方和均值等于1，可以进一步保证 \mathbf{J} 的所有奇异值都分布在1附近，来获得更快更好的网络训练。这种初始化模式由文献76首次提出，又叫做动力等距性质。这种初始化方法确保了误差后向传播的动力等距，即每一个误差向量的长度近似不变，所有误差向量对的夹角也保持不变。

在线性网络网络中可以简单地选择正交的权重矩阵（而非高斯权重）来满足动力等距。并且从理论上和经验上都表明，正交初始化时，训练时间（用训练步数来度量）与网络深度无关[76]。而在高斯初始化中，即使 \chi=1 ，训练时间也随着深度线性增长。的确，即使 \chi=1 ，高斯随机矩阵的乘积的最大奇异值随着网络深度线性增长，而正交矩阵的乘积所有的奇异值都等于1，所以可以达到完美的动力等距。

文献77将这一结果推广到非线性网络，文献78则利用自由概率理论[79,80]中的强大工具将 \mathbf{J} 背后的随机矩阵乘积的全谱求解为权重分布和非线性函数 \phi 形状的一个函数。这个分析理论与在非线性深层网络中对 \mathbf{J} 的经验谱分布的数值测量结果相匹配（见图4a）。

图 4a 不同深度下，宽度为 1000 的 ERF 网络的端到端雅可比矩阵的经验奇异值密度（实线）和理论奇异值密度（虚线）。

有趣的是，这一工作还揭示我们甚至可以在非线性网络中使用正交权重和 Sigmoid 非线性函数（或者更一般的原点附近局部线性而其他地方的导数有界的非线性函数）来达到动力等距。而深度学习中最流行的非线性函数之一 ReLU 则不满足上述条件。这一工作进一步显示，如果权重是高斯分布的，则没有非线性函数能够达到动力等距[78]。这些针对 \mathbf{J} 全谱的理论结果和实践训练结果都显示，正交初始化的 Sigmoid 网络确实要优于整流线性（ReLU）网络[77]（见图4b）。

图 4b 深度为 200，宽度为 400 的网络在 CIFAR-10 测试数据集上的正确性变化。不同的曲线表示不同的非线性函数和权重初始化，动力等距程度由蓝变红变黑逐渐降低。

动力等距的条件在很多其他架构中也被分析，包括残差网络[81]，循环神经网络（RNN）[65]，LSTM/GRU[66]，以及卷积神经网络（CNN）[63]。在卷积神经网络中，动力等距我们能够训练包括10000层的极深的网络[见图4c]。

图4c 不同深度下以动力等距初始化的 CNN 在 CIFAR-10 上的训练准确性和测试准确性，分别如点线和实线所示。训练深度可达 10000 层。

因此，将随机矩阵理论应用到深层网络可以得到更好的训练模式。实际上，在深度学习的很多场景，随机矩阵理论都被证明是一个非常强大的工具，包括神经网络损失曲面的几何形状[83]，激活矩阵和 Fisher 信息矩阵的谱计算[84]，学习动力学的研究[85-87]，以及一些其他应用[88-90]。

3 超越平均场: 有限宽度和路径积分

上述的理论结果基于两个关键的简化假设：无限宽度极限，以及权重和偏置的独立同分布假设。在这种平均场极限下，满足自平均性质，通过对网络集合进行平均，可以精确地分析计算单个网络的前向传播输入的几何形状和雅可比谱。

为了研究有限宽度或训练网络[91,92]的功能作用，我们必须超越平均场。尽管这类深度学习的研究还处于初级阶段，我们可以在研究自旋玻璃[93]中有限尺寸效应的理论工作基础上，以及分析自旋玻璃[95中涨落的路径积分方法[94]，以及随机[94]和确定性[96–99]神经网络的基础上进行研究[参见文献100和101]。这种路径积分方法既可以分析计算包含相关性和响应函数的方程[102]，也可以利用费曼图和循环展开来系统地处理波动[100,101,103-105]。

最近，这种路径积分方法被用来分析训练好的前馈网络[91]。然而这种方法对于洞察深度学习的不同方面还有更多的潜力。事实上，这种方法已经在解释有限尺寸校正[99]，相关性[106]，非线性[107]的影响，以及循环网络应用等方面获得了成功，它也可能在前馈网络的平均场之外产生类似的见解[91,108]。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-05-07，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习