【神经网络为什么过拟合？】理解深度学习需要重新思考“记忆”

新智元

发布于 2018-03-27 17:45:47

9360

发布于 2018-03-27 17:45:47

文章被收录于专栏：新智元

【新智元导读】之前 Bengio 等人在 ICLR-17 提出了“理解深度学习需要重新思考泛化”这一观点，相关论文也被选为 ICLR-17 的最佳论文之一。这一次，Bengio 联合 Aaron Courville，与学生一起，从“记忆”的角度入手，再次对深度神经网络做了分析，理解深度学习的本质。作者发现，深度神经网络不仅仅是记住数据，并且在记忆之前，会先学习简单的模式。

深度神经网络在容量（capacity）足够的情况下，能够对任意复杂函数进行表征，因此也被称为通用的函数逼近器（universal approximators）。不仅如此，最近的工作表明，深度神经网络的表达能力（expressiveness）随着深度呈指数增长。

然而，这些工作都只是对现象进行了研究，没有分析其本质及原因。

这次，Bengio 等人被 ICML 2017 接收的论文《近看深度网络的记忆》（A Closer Look at Memorization in Deep Networks）对上述问题做了初步的探讨。

这项工作也是 Bengio 等人在 ICLR 2017 上提出“理解深度学习需要重新思考泛化”这一论点之后，再次对“理解深度学习”做出的努力。

这一次，作者从“记忆”的角度出发，他们将“记忆”的定义为深度神经网络在噪声上训练所表现出的行为，并进行了一系列实验，将深度网络在噪声数据与在实际数据上的学习动态（learning dynamics）做了对比。

作者在论文中写道，他们在 ICLR 2017《理解深度学习需要重新思考泛化》这项工作的基础上，总结得出：

1）深度神经网络在实际数据上的优化行为与在噪声数据上的优化行为存在定性差异。换句话说，深度神经网络不仅仅是记住了真实的数据。

2）深度神经网络在记忆之前，首先学习简单的模式。换句话说，深度神经网络的优化是与内容有关的（content-aware），利用了多个训练样本共享的模式。

3）不同的正则化技术，能在不影响神经网络泛化能力的情况下，以不同的程度阻碍深度神经网络的记忆。

论文：近看深度神经网络的记忆

摘要

我们仔细考察了记忆在深度学习中的作用，考虑了记忆与容量（capacity）、泛化性能和对抗鲁棒性（adversarial robustness）的关系。虽然深度神经网络能够记住噪声数据，但我们的结果表明，网络倾向于首先学习简单的模式。在实验中，我们揭示了深度神经网络（DNN）在噪声与实际数据上梯度优化中的定性差异。我们还表明，对于得到适当调整的显示正则化函数（例如 dropout），可以在不影响实际数据泛化性能的情况下，降低（degrade）DNN 在噪声数据集上的训练性能。我们的分析表明，在使用基于梯度的方法训练时，神经网络的有效容量（与数据集无关）这一概念无法解释深度网络的泛化性能，因为训练数据本身在确定记忆程度方面起着重要的作用。 论文地址：https://arxiv.org/pdf/1706.05394.pdf

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-06-21，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络