深度学习与统计力学(II) ：深度学习的表达能力

数据科学人工智能

发布于 2022-03-31 17:59:26

3340

发布于 2022-03-31 17:59:26

文章被收录于专栏：数据科学和人工智能

谷歌和斯坦福最新合作综述报告，发表在物理学的顶级期刊“凝聚态物理年鉴”（Annual Review of Condensed Matter Physics）。本公众号对本报告进行翻译，分6次发布仅供参考。

系列预告

深度学习与统计力学(I) ：深度学习中的基础理论问题
深度学习与统计力学(II) ：深度学习的表达能力
深度学习与统计力学(III) ：神经网络的误差曲面
深度学习与统计力学(IV) ：深层网络的信号传播和初始化
深度学习与统计力学(V) ：深度学习的泛化能力
深度学习与统计力学(VI) ：通过概率模型进行“深度想象”

一些开创性的结果[19，20]表明，只要隐层神经元数量足够多，只有一个隐含层的浅层网络就可以从一个有限维空间到另一个有限维空间，万能地逼近任何 Borel 可测函数。

这些结果带来了一个基础的问题：为什么具有许多隐含层的深层神经网络在解决机器学习和人工智能中的关键问题时具有功能优势？

1 用深层网络高效计算特殊函数

重要的是，文献[19]和[20]中关于函数逼近的早期结果并没有说明通过浅层网络逼近或表达任何给定函数需要多少隐神经元。与浅层网络相比，深层网络的成功的一个关键因素是他们的强表达能力。这个概念主要对应于两个直觉。

首先，深度网络可以在输入空间上紧凑地表达高度复杂的函数，而具有一个隐含层和相同数量神经元的浅层网络则不能。

第二种直觉吸引了机器学习[21]和神经科学[22]的想象力，即深层神经网络可以将输入空间中高度弯曲的决策边界分离为隐含空间中平坦的决策边界，以帮助提高简单线性分类器的性能。

为了更精确地定义决策边界，考虑公式(1)中的深度网络 \mathbf{y} = \mathbf{x}^D(\mathbf{x}^0,\mathbf{w}) ，进一步限制输出 \mathbf{y} 是一个标量函数 y 。这个网络可以完成二元分类任务，根据 y = \mathbf{x}^D(\mathbf{x}^0,\mathbf{w}) 的正负来将输入向量 mathbf{x}^0 划分到两种类别。那么满足方程 \mathbf{x}^D(\mathbf{x}^0,\mathbf{w}) 的余维1流形就是网络的决策边界。

还可以在倒数第二个隐含层 \mathbf{x}^{D-1} 中类似地定义决策边界。由于该隐含层中的决策边界必须是线性超平面，根据 \mathbf{x}^{D-1} 到标量 h^D 的线性映射，输入空间中的决策边界可能由于公式(1)中 \mathbf{x}^0 到 \mathbf{x}^{D-1} 的高度非线性映射而高度弯曲。

我们这里关注第一种直觉。一些工作展示了一些特殊复杂函数的例子，这些函数可以用一些神经元来计算，神经元数量在使用深层网络时会随着输入维数的多少而多项式增长，但在使用浅层网络时神经元数量在输入维数上成指数增长[23-27]。

这些工作中采用的理论技术既限制了理论对特定非线性的适用性，又规定了所涉及的深层功能复杂性的特定度量。例如，文献23关注 ReLU 非线性和一些线性区域数作为复杂性度量；文献24关注计算多项式的和积网络，以及多项式中的单项数作为复杂性度量；文献28着重于Pfaffian非线性和复杂度的拓扑度量，如决策边界的 Betti 数之和。

因此，这些工作留下了一个开放的基本问题：特定的函数例子能够由特定的深层网络有效地计算，仅仅是因为巧合，还是在某种意义上任何浅层网络无法高效计算的函数都可以通过包含更多非线性的通用深层网络高效地计算？

2 瞬态混沌的表达能力

最近的工作[29]通过结合黎曼几何和动态平均场理论[30]来分析信号在随机深层网络的传播，其中权重和偏置是从零均值高斯分布中独立同分布采样的。在由权值和偏置的方差形成的相位平面中，这项工作揭示了信号传播的有序和混沌状态之间的动态相变（图1a和图1b的例子中，公式(1)中的非线性函数设置为 \phi(x)=\tanh x 。

直观来看，对于较小的权重，相对于偏差的强度，当输入点通过深层网络的层传播时，邻近的输入点合并，并且前馈映射保持在线性区域内。然而，对于较大的权重，信号传播对应于交替的线性扩张和非线性折叠，导致附近输入的指数发散而不引起输入范数的爆炸，就像具有正 Lyapunov 指数的递归动力系统中的混沌传播一样。我们将在第4节中更详细地介绍这种相变。

图1 瞬时混沌的深层神经表达。（a）随机深层神经网络中有序和混沌信号传播的动态相变，其与权重方差和偏差方差有关[29,31]。这种相变适用于原点斜率有限的任何光滑奇饱和非线性。图中的结果显示的是的结果。（b）一个简单流形在混沌系统中通过多层传播的例子。（c）输入空间中决策边界或余维1流形的一个例子。在产生最大主曲率的点处流形的规范化二次逼近对角化的特征值，量化了与切平面的偏离。文献29中发展了这些主曲率传播的动态平均场理论。该理论揭示，输入空间中与输出空间中的平坦边界相关联的决策边界的主曲率在混沌区域中随深度呈指数增长。图中PCA为主成分分析的缩写。

在这种混沌状态下，对于随机网络[29；图1b]，简单一维输入流形的长度和积分外曲率的全局度量通常随深度呈指数增长，而相应的长度度量最大增长率为浅层网络宽度的平方根，无论人们如何选择权重。这就证明了随机深层网络不能用浅层网络来逼近，除非浅层网络指数级数量的神经元。在这种混沌状态下，输出空间中的平坦决策边界对应的输入空间中的决策边界的主外曲率随着深度指数增长[29；图1c]。此外，在热门的 ReLU 非线性上一个密切相关的研究也显示了输入流形的长度随着深度呈指数增长，神经网络训练对较低层更敏感，有趣的是轨迹的长度可能是一个有用的正则化器[32]。

一般来说，需要更多的理论工作来理解深层网络如何以及何时能够有效地在我们希望在人工智能中学习的类型的自然输入域上表达更多的自然函数。沿着这条线有趣的早期方向包括分析一般的组合函数类[33]，以及探索简单神经网络分类光滑流形的能力[34]。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-05-07，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习