本文于2020年发表于《中国科学:数学》杂志。作者为鄂维南(普林斯顿大学、北京大数据研究院)、马超(普林斯顿大学)和吴磊(普林斯顿大学)。英文论文PDF文件下载请在本公众号回复关键词“机器学习连续视角”。
在经典数值分析的影响下,我们提出了一个连续的机器学习形式,将其作为变分法和微分积分方程中的一个问题。我们证明了传统的机器学习模型和算法,如随机特征模型、两层神经网络模型和残差神经网络模型,都可以表示成(以比例形式)对应连续形式的离散化的特例。我们还提供了从这种连续形式自然产生的新模型,例如基于流的随机特征模型,以及新算法,例如平滑粒子方法和谱方法。我们讨论了如何在这个框架下研究泛化误差和隐式正则化问题。
这里提出的连续视角提供了一种更抽象的机器学习的思考方式。重点关注函数的表示、变分法问题和连续梯度流。特征和神经元作为对象出现在这些连续问题的特殊离散化中。
我们从这个思考过程中至少学到了两件事。一方面,我们可以不借助神经元的概念来讨论机器学习,实际上除了神经网络模型之外,还有很多算法和模型。另一方面,我们也看到了为什么神经网络(浅层和深层)是不可避免的选择:它们是最简单的连续梯度流模型的最简单粒子方法离散化(分别用于基于积分变换和基于流的表示)。
经典数值分析的一个主要主题是提出更好的模型和算法的设计原则。本着这种精神,我们可以为连续机器学习方法提出以下一组原则:
我们认为如果遵循这组设计原则,所得到的模型和算法将以一种相当健壮的方式运行,而当前的机器学习模型往往敏感地依赖于超参数的选择。
当前机器学习算法中的一些微妙之处,仅仅是从一个连续的角度来看待就已经可以被理解了。例如,非常深的全连接网络应该会引起问题,因为它们没有很好的连续极限[35]。