前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习与统计力学(V) :深度学习的泛化能力

深度学习与统计力学(V) :深度学习的泛化能力

原创
作者头像
数据酷客
修改2020-04-29 17:48:46
7650
修改2020-04-29 17:48:46
举报
文章被收录于专栏:数据科学人工智能

查看本案例完整的数据、代码和报告请登录数据酷客(cookdata.cn)案例板块。

前言

为什么深度学习在实践中通常能获得较好的泛化能力?现实数据集包含内在的简单结构,过度参数化的深层神经网络趋向于首先学习这种简单结构。

谷歌和斯坦福最新合作综述报告,发表在物理学的顶级期刊“凝聚态物理年鉴”(Annual Review of Condensed Matter Physics)。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli

英文原报告“深度学习统计力学”

深度学习中的一个关键问题是理解何时以及为何深层网络有着好的泛化能力?仅仅用一个包含 P 个样本的有限数据集 D,针对 N 个参数 w 最小化公式(3)中的训练误差 εTrain(w,D) ,网络能够在测试集上精确地进行预测,获得公式(2)所示的较低的测试误差 εTest 。深度学习处理的问题中,N 可以大 P 几个数量级,甚至 N 有时可能达到数十亿参数[110]。正如我们本章所要解释的,为什么深度学习具有好的泛化能力在理论上依然是一个大的疑问[109]。

1 经典泛化理论:计算机科学 VS 物理学

另一个理解泛化能力的框架是算法稳定性的概念[115],即如果对训练数据 D 进行扰动时,由算法 A 得到的函数 fD =A(D) 依然稳定,则泛化能力较好。最后,PAC 学习理论(probably approximately correct)的 Bayes 界告诉我们,如果在训练过程中,权重的分布不发生较大改变,则泛化能力较好[116]。函数空间复杂度、算法稳定性和泛化能力等基本概念如图5a所示。

图 5a 考虑一个从真实函数 f* 加上噪声生成的包含 P 个点的有限数据集 D(图中黑色点)。在一个简单的线性函数空间 F 上最小化训练误差能够得到一个对训练数据扰动稳定的函数(蓝色线),其在训练数据上的泛化能力也较好。在一个更加复杂的分段线性函数空间上最小化则得到一个训练误差更优但是既不稳定泛化能力也差的函数(红色虚线)。

然而,许多上述想法应用到从大小为 P 的训练集中训练的规模为 N 的大型神经网络,当 N 远大于 P 时(现代深度学习的主要区域),文献109提出了一个突出问题,即得到的测试误差的上界非常宽松[117-123]。同样的问题在核机器方法中也存在[124,125],核机器可以看作是一个包含两个权重层的网络,其中第一个权重层不学习。

在缺乏理论的情况下,大量工作采用数值方法对泛化能力进行探索。一个有趣的可能性是好的泛化能力是随机梯度下降 (SGD)的动力学的、非平衡动态性质,它偏向于学习到训练误差的高度平坦区域处的参数[129,130]。这种平坦性带来了稳定性,从而可以获得好的泛化能力。其他方法则建议权重不要积累训练数据的过多信息来获得泛化能力[131](也可参考文献132)。这些工作都有类似的想法,即可学习的神经网络的最小描述长度(Minimum Description Length,简称MDL)可能比简单的参数数量要小得多[133,134]。当然,完整的故事仍然有待被书写。

2 线性模型的经验

考虑到泛化问题的复杂性,从简单而非平凡的示例学习问题中汲取经验是非常有用的。一个有指导意义的学习问题是深度线性网络[76]。在这个问题中,虽然输入输出的映射是线性的,由于权重的复合,训练误差和测试误差的曲面都是高度非凸的(如图5b所示)。

令人惊讶的是,由此产生的非线性动力学甚至可以建模婴儿概念学习的许多方面[9]。在低秩教师网络和满秩学生网络的情况下,最近的一项工作推导出了训练和测试误差的整个轨迹的封闭形式解[87]。只要及时提前终止训练(early stopping)(深度学习中的一个常用实践技巧),即使学生网络的参数比教师网络参数多很多,也能获得很好的泛化能力。

图 5b 由于训练对应的是最小化训练误差(红色曲线)而不是测试误差(蓝色曲线),训练误差会随着训练时间单调下降,而测试误差则可能在靠后的时间开始上升,从而导致过度拟合。
图 5b 由于训练对应的是最小化训练误差(红色曲线)而不是测试误差(蓝色曲线),训练误差会随着训练时间单调下降,而测试误差则可能在靠后的时间开始上升,从而导致过度拟合。

图 5b 由于训练对应的是最小化训练误差(红色曲线)而不是测试误差(蓝色曲线),训练误差会随着训练时间单调下降,而测试误差则可能在靠后的时间开始上升,从而导致过度拟合。

图 5c 一个线性教师网络中秩为3的训练数据输入输出协方差矩阵 Σ 的奇异值谱。三个离群奇异值对应的奇异模包含教师网络的信息,而其余奇异模只包含有限训练集中的噪音[87]。

学习的过程此时对应奇异模检测波[87],从大奇异值扫到小奇异值。当它跨越大的奇异值时,学生网络从教师网络那学习,训练误差和测试误差都会下降;当它跨越小的奇异值时,训练误差下降,而测试误差会上升(如图5d所示)。因此,无论学生网络中有多少参数 N ,提前终止都能得到较好的泛化能力。

图 5d-e 深度学习的泛化能力。(d) 学习对应个奇异模检测波,如图5c,它从右到左扫描,当通过一个奇异模时训练误差会下降。当检测波进入噪音模区域时,训练误差还会持续下降。(e) 然而测试误差只会在检测波经过信号模时下降,当检测波进入噪音模区域时,测试误差开始上升[87]。图中SNR为信噪比的缩写。TA为 Teacher Aligned 的缩写。

从这个例子我们可以猜想,现实世界的数据集 D 包含内在的简单结构,过度参数化的深层神经网络趋向于首先学习这种简单结构,而并没有充分利用它们的参数。因此良好的泛化能力可能来自数据中的结构和深层网络学习动力学优先学习这种结构的偏向之间的非平衡动力学共谋。识别真实数据中这种简单结构是什么,以及这种结构是否能够与深度学习的内在动力学相结合以达到好的泛化能力(与深层线性情况下一样),依然是一个有趣的理论问题。

3 无限宽度极限的经验

一些有意思的工作指出,如果参数数量 N 的增加主要来源于网络宽度的增加,则泛化能力趋向于提高[67,135-137]。第4节我们已经讨论,当宽度趋于无穷大且权重方差初始化时与宽度成反比时,随机初始化的神经网络中的信号传播有一个良好定义的极限。文献67和135-137的观察结果表明,这种无限宽度极限也可以深入了解实践前沿的大型深层网络泛化能力很好的基础要素。正如我们接下来解释的那样,这个无限宽度极限具有良好定义的学习特性。

3.1 无限宽深度神经网络等价于高斯过程

3.2 无限宽度极限下的学习

无限宽度极限下的学习过程可以看作是函数空间 F 上的高斯先验 P(F) 到以训练数据 D 为条件的贝叶斯后验分布 P(F|D) 的转换。实际上,后验 P(F|D) 本身也是一个高斯过程,可以通过高斯积分显式地计算[139,140]。这种函数空间中的贝叶斯后验计算与场论中的计算很类似[141]。

当前,在高斯过程先验的函数空间上使用贝叶斯推理学习(对应于无限宽度深层网络)和在实践中使用梯度下降学习大型有限宽度深层网络之间的确切对应关系依然不是很明确。在全连接网络中的经验性研究表明这两种方法表现相似,暗示他们之间可能存在简单的关系[67]。

最近的工作也发现无限宽深层神经网络中的梯度下降学习动力学与一种核方法之间存在联系[142-144]。在这种核方法中,固定大量随机特征的集合或输入空间 x0 的非线性函数,仅仅学习这些固定非线性函数的线性组合。这个性质对无限宽网络同样适用,因为可以证明梯度下降动力学并没有明显地移动权重[142,143]。

然而文献145指出,142和143中的动力学过于简单不足以解释神经网络在实践中的成功。在神经网络中,学习过程可能会更多地改变网络权重,从而学习适应数据的很多非线性基函数,而不仅仅是固定随机线性函数的线性组合。尽管早期工作(文献143)已经指出,在某些情形下使用常用架构的有限宽度网络的动力学能够用无限宽度理论来解释,这个问题很多研究依然正在进行中。

在高斯过程无限宽度极限下,初始权重的标准差与网络宽度的平方根成反比[67,142]。其他类型的尺度极限也被发现,例如网络最后一层的权重与宽度成反比[146-148]。这个极限产生了与文献142和143不同的非平凡相互作用粒子动力学。需要更多的理论和经验性研究哪种动力学描述最适合于当前实践中训练的神经网络,以及是否存在其他的尺度区域比当前的方法更具优势。

总之,深度学习泛化能力方面的研究进展很快,一定程度上得益于从物理学上的概念获得的见解,包括热力学极限、相互作用粒子描述,函数空间(场理论)表达。一个更加完整的理解可能即将到来。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 查看本案例完整的数据、代码和报告请登录数据酷客(cookdata.cn)案例板块。
  • 前言
  • 1 经典泛化理论:计算机科学 VS 物理学
  • 2 线性模型的经验
  • 3 无限宽度极限的经验
    • 3.1 无限宽深度神经网络等价于高斯过程
      • 3.2 无限宽度极限下的学习
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档