学界 | 深度神经网络为什么不易过拟合?傅里叶分析发现固有频谱偏差

选自arXiv

作者:Naism Rahaman等

机器之心编译

参与:Geek AI、刘晓坤

过参数化的深度神经网络是一类表达能力极强的函数,甚至能 100% 记住随机数据。这向我们提出了一个问题:为什么它们不会轻易地过拟合数据?为了回答这个问题,来自海德堡大学和 MILA 等机构的研究者使用傅立叶分析研究了深度神经网络,并通过实验尝试回答以下问题:深度神经网络表征数据的频谱偏差;网络的深度、宽度对建模高频数据的作用;深度网络为何不能完全记住狄拉克函数;深度网络如何逼近复杂函数;以及数据样本在网络参数空间的路径关系等。

众所周知,过参数化的深度神经网络(DNN)是一类表达能力极强的函数,它们甚至可以以 100% 的训练准确率记住随机数据。这种现象就提出了一个问题:为什么它们不会轻易地过度拟合真实数据?为了回答这个问题,我们使用傅立叶分析研究了深度神经网络。我们证明了具有有限权重(或者经过有限步训练)的深度神经网络天然地偏向于在输入空间上表示光滑的函数。具体而言,深度 ReLU 网络函数的一个特定频率分量(k)的大小至少以 O(k^(-2))的速率衰减,网络的宽度和深度分别以多项式和指数级别帮助网络对更高的频率建模。这就说明了为什么深度神经网络不能完全记住 delta 型的峰函数。我们的研究还表明深度神经网络可以利用低维数据流形的几何结构来用简单的函数逼近输入空间中存在于简单函数流形上的复杂函数。结果表明,被网络分类为属于某个类的所有样本(包括对抗性样本)都可以通过一条路径连接起来,这样沿着该路径上的网络预测结果就不会改变。最后,我们发现对应于高频分量的深度神经网络(DNN)参数在参数空间中所占的体积较小。

如今,人们已经做出了许多关于深度神经网络表达能力的理论研究(Hornik et al., 1989; Cybenko, 1989; Montufar et al., 2014; Poole et al., 2016)。最近的研究表明,深度神经网络(DNN)实际上能够以 100% 的训练准确率记忆随机数据,这表明它们在过参数化的机制中确实有很强的表达能力(Zhang et al., 2017)。这大大激发了人们对深度学习的另一个领域(泛化理论)进行研究的兴趣,从而理解为什么实际上的表现如此优秀,因为能够记住随机数据的过参数化的神经网络会使传统的泛化边界(例如,VC 维、Rademacher 复杂度等)变得无意义。在这些研究中,一个路线将目光投向了研究深度神经网络(DNN)泛化问题的新方法(Neyshabur et al., 2015, 2017; Dziugaite and Roy, 2017);另一个路线则研究基于随机梯度下降(SGD)的方法如何在寻找最小值的问题中作为隐式正则项提升泛化能力(Mandt et al., 2017; Chaudhari and Soatto, 2017; Jastrz˛ebski et al., 2017; Smith and Le, 2017)。

基于这些研究,研究者注意到过参数化的深度神经网络(DNN)在训练过程中优先学习简单(或光滑)的函数,从而捕获到数据中出现的全局性结构而不是过度拟合单个样本(Arpit et al., 2017; Advani and Saxe, 2017)。有趣的是,这种现象已经被证明无论是在真实数据或是随机生成的数据上都是成立的(Arpit et al., 2017)。因此,尽管这样的深度神经网络(DNN)是过参数化的并且具有很强的表达能力,它们似乎更偏向于拟合光滑函数。这也暗示着表征这些函数的参数空间的容量很大。在本文中,研究者使用傅立叶分析来展示深度神经网络(DNN)天然地就偏向于拟合光滑函数,而不是研究泛化问题或深度神经网络优化方法的行为。据作者所知,这是首次使用傅立叶分析研究深度神经网络的工作。本文的贡献如下:

  1. 本文展示了对于参数 θ 的任意有限值来说,深度神经网络(DNN)的 ReLU 函数的一个特定的频率分量(k)的量级至少以 O(1/k^2 ) 的速率衰减,并且网络的宽度和深度分别以多项式和指数的级别帮助其捕获更高的频率;因此,高频分量的大小会更小(DNN 更容易趋向于光滑)。其结果是,对深度神经网络(DNN)进行有限步训练使其更趋向于表示如上面所描述的函数。
  2. 作为这一理论的附带结果,研究者揭示了(有限权重)深度神经网络在学习类似狄拉克 delta 函数(单位脉冲函数)峰函数的理论极限。这是因为它的傅立叶变换的量级是一个常值函数(因此所有的频率都有相同的振幅)。并且如上文中所讨论的,深度神经网络(DNN)无法学习对这样的函数建模,因为它们的傅立叶系数必须至少以 1/k^2 的速率衰减(尽管增加宽度和深度可以分别以多项式级和指数级别帮助其捕获更高的频率)。
  3. 研究者指出,如果在低维流形上定义数据-目标函数的映射,深度神经网络(DNN)可以利用流形的几何结构来对函数取近似,这些函数沿着流形(其函数的频率分量相对于其输入空间较低)具有高频分量。
  4. 通过分析实验表明,对于一个在 CIFAR-10 数据集上训练的深度神经网络(DNN)来说,存在几乎线性的路径能够连接所有的对抗性样本,它们被分类成一个特定的类(比如「猫」)。对于所有真正类别为「猫」的训练样本,所有的样本也沿着这条路径被分类成同一个类别——「猫」。研究者进一步展示了对于在 CIFAR-10 数据集上训练的深度神经网络(DNN)来说,所有同一个类别中的训练样本也通过同样的方式连接起来。
  5. 实验表明,与带有高频分量的函数相对应的深度神经网络(DNN)在参数空间中所占的体积更小。

图 2:展示训练期间(y 轴)频谱演变(x 轴)的热图。颜色代表测量出的在相应的频率上网络频谱的幅值,其值用相同的频率的目标幅值进行了归一化操作。此图说明,尽管更高频率的训练数据具有 g 的振幅,深度神经网络仍然优先训练低频数据。

图 3: 一个深度为 D、宽度为 W,权重修剪 K=0.1 的网络被训练去预测一个 delta 峰(所有频率的振幅都相同)。在图(a)和图(b)中,y 轴对应于不断增加的训练迭代次数(向上递增),x 轴则代表频域(右图)和输入域(左图)。更亮的颜色表示数值更大。此图说明,根据理论所阐述的,宽度和深度分别以多项式和指数级帮助网络捕获高频分量。这一点在输入域和频域上都可以看出来(注:64^4=8^8)。更多的图片请参见附录(图 11)。

图 5: 在图 3 中所使用的 delta 峰数据集上,一个深度为 D 层、宽度为 W 个单元的网络的所有权重的谱范数(y 轴)与训练过程中迭代次数(x 轴)的关系图。

对于矩阵值权重,它们的谱范数是通过估计由 10 次幂迭代得到的特征向量的特征值计算而来。对于向量值权重,则仅使用了 L2 范数。此图说明,随着神经网络通过学习去拟合更大的频率,神经网络权值的谱范数也增大,从而松弛频谱的边界

图 6: 在图(a)和图(b)中,左图:L=0 瓣(虚线圆);右图:L=20 瓣(由 20 瓣组成的虚线花)定义了数据的流形。

对于这两个流形,我们沿着流形定义了一个频率为 k Hz 的正弦信号,并将它二值化,得到一个 0/1 的目标(点的颜色)。对于每种情况,研究者训练了一个 6 层深的 ReLU 网络,将数据样本从流形映射到它相应的目标上。填充的颜色表示预测出的类,等高线表示该网络经过 sigmoid 函数处理的对数 logits 的绝对值。此图说明,对应较大的 L 的流形,即使在两种流形沿着流形的目标频率相同时,也能使深度神经网络在其域空间学习到更光滑的函数。可以看到,网络会学习利用 L 值较大的流形的几何结构去学习关于其输入空间的低频函数。这个结论在另一个实验中得到了证实。

图 8: 用于预测定义在一个 L 瓣的流形(y 轴)上的给定频率(x 轴)的二值化正弦波的训练分类准确率的热图。此图说明,如果目标信号的频率较低或数据定义在一个具有更大的 L 的流形上,固定大小的网络的准确率越高。后者的结果表明,随着流形中瓣数的增加,在一个流形上学习一个高频目标就变得更容易。

图 9: 每一行都展示了图像空间中的一条路径,从右至左显示了从对抗性样本变为一个真实训练图像的过程。

所有的图像都被一个 ResNet-20 以不少于 95% 的 softmax 概率分类为右侧所示的训练样本的类别。本实验表明,我们可以找到一条路径,分类为某一个特定类别(「飞机」)的对抗性样本(右侧,例如「猫」)与真实的训练样本类别(左侧,「飞机」)相连,这样以来沿着这条路径的左右样本都会被网络预测为同一个类别(「猫」)。

论文:On the Spectral Bias of Deep Neural Networks

论文链接:https://arxiv.org/pdf/1806.08734.pdf

摘要:众所周知,过参数化的深度神经网络(DNN)是一类表达能力极强的函数,它们甚至可以以 100% 的训练准确率记住随机数据。这种现象就提出了一个问题:为什么它们不会轻易地过度拟合真实数据?为了回答这个问题,我们使用傅立叶分析研究了深度神经网络。我们证明了具有有限权重(或者经过有限步训练)的深度神经网络天然地偏向于在输入空间上表示光滑的函数。具体而言,深度 ReLU 网络函数的一个特定频率分量(k)的大小至少以 O(k^(-2))的速率衰减,网络的宽度和深度分别以多项式和指数级别帮助网络对更高的频率建模。这就说明了为什么深度神经网络不能完全记住 delta 型的峰函数。我们的研究还表明深度神经网络可以利用低维数据流形的几何结构来用简单的函数逼近输入空间中存在于简单函数流形上的复杂函数。结果表明,被网络分类为属于某个类的所有样本(包括对抗性样本)都可以通过一条路径连接起来,这样沿着该路径上的网络预测结果就不会改变。最后,我们发现对应于高频分量的深度神经网络(DNN)参数在参数空间中所占的体积较小。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-07-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CVer

CS229 机器学习速查表

本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载

20410
来自专栏大数据挖掘DT机器学习

SIFT特征提取分析(附源码)

SIFT(Scale-invariant feature transform)是一种检测局部特征的算法,该算法通过求一幅图中的特征点(interest poin...

54450
来自专栏机器学习算法与Python学习

资源 | 源自斯坦福CS229,机器学习备忘录在集结

在 Github 上,afshinea 贡献了一个备忘录对经典的斯坦福 CS229 课程进行了总结,内容包括监督学习、无监督学习,以及进修所用的概率与统计、线性...

16220
来自专栏人工智能头条

逻辑回归、决策树和支持向量机(I)

17080
来自专栏人工智能LeadAI

监督学习中各算法优缺点及应用场景概览

记录一波监督学习算法的应用场景和优缺点。 高斯朴素贝叶斯 场景:该模型常用于性别分类(https://en.wikipedia.org/wiki/Naive_B...

55960
来自专栏智能算法

机器学习算法比较

来自:D.W's Notes - Machine Learning 作者:刘帝伟 链接:http://www.csuldw.com/2016/02/26/201...

391120
来自专栏机器之心

学界 | Tomaso Poggio深度学习理论:深度网络「过拟合缺失」的本质

过去几年来,深度学习在许多机器学习应用领域都取得了极大的成功。然而,我们对深度学习的理论理解以及开发原理的改进能力上都有所落后。如今对深度学习令人满意的理论描述...

12920
来自专栏大数据挖掘DT机器学习

逻辑回归、决策树和支持向量机

作者:赵屹华,计算广告工程师@搜狗, http://www.csdn.net/article/2015-11-26/2826332 这篇文章,我们将讨论如何在逻...

30040
来自专栏SIGAI学习与实践平台

理解过拟合

在进行有监督的机器学习建模时,一般假设数据独立同分布(i.i.d,independently and identically distributed)。即样本数...

12710
来自专栏IT派

机器学习各类算法比较

导语:机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常...

433120

扫码关注云+社区

领取腾讯云代金券