重新思考深度学习里的泛化

哒呵呵

发布于 2018-08-06 17:19:45

4410

发布于 2018-08-06 17:19:45

文章被收录于专栏：鸿的学习笔记

2017 ICLR提交的“UnderstandingDeep Learning required Rethinking Generalization”必然会打乱我们对深度学习的理解。这里是一些总结：1.神经网络的有效容量对于整个数据集的brute-force内存是足够大的。2.即使对随机标签的优化仍然会很容易。事实上，与对真实标签的训练相比，训练时间只增加了一个小的常量。3.随机化标签只是一种数据变换，使的学习问题的所有其他属性保持不变。作者实际上引入了两个新的定义来表达他们观测的内容去描述关于“显式”和“隐式”正则化的讨论。删除，数据增加，权重共享，常规正则化都是显式正则化。隐含正则化是早期停止，批量规范和SGD。这是一个非常奇怪的定义，我们后续会讨论。

我理解的正则化有两种类型。我会使用术语“建设性正规化”和“训练性正规化”。通过训练的正则化，这是正则化术语的正常使用。还有“建设性正则化”，这是我们在构建我们的网络时选择的模型选择的结果。存在区别的原因是，在数学上它们确实等价地作为约束项出现时，在训练之后，即在推理路径中，正则化通常不存在。在训练和推理阶段，建设性正规化总是存在的。

现在的论文有显式和隐式正则化之间的区别。一个用于归一化不同输入样本的激活的分批归一化（BN），但是也会正则化，因此它是隐式正则化。两者之间的区别是正则化的目的。后者是隐性泛化。意思是该技术意想不到的后果是正则化。所以研究人员不认为一个方法会导致正则化，并且这就是他们所谓的“隐性”正则化。我认为，Hinton的期望的Drop Out不会导致正则化。这就是为什么我认为定义是非常模糊，但我明白为什么他们介绍这个想法。

然而正则化的目的是改进泛化。这也是BN的作用。事实上，对于初始架构，BN更倾向于drop out。说到规范化，有这几种形式，批处理和层规范化是两个最流行的版本。 BN的动机应该是Domain Adaptation。 Domain Adaptation是否不同于泛化？不只是一种特定的泛化吗？还有其他种类的泛化吗？如果是，他们是什么？作者做出了令人惊讶的发现，这是一种似乎无法概括的方法，更具体地SGD，事实上。另一个ICLR 2017年论文An Empirical Analysis of Deep Network Loss Surfaces增加了对此SGD属性的确认。本文显示，不同SGD方法的losssurfaces上彼此的不同。

它让我想起了量子力学，其中探针会影响观察。这里的学习方法会影响学习的内容。在神经网络的这种新的观点中，brute force内存或者全息机器，那么或许量子力学的想法可能需要发挥作用。量子力学的出现是因为在经典动力学中泊松括号的不可交换性。我们有两个变量，位置和动量，这是密不可分的。在深度学习中，有两个以上的变量捆绑在一起，导致正则化。我们至少有3个变量：学习方法，网络模型和生成模型，似乎都对泛化有影响。“显式正则化可以提高泛化性能，但是既不必要也不足以控制泛化误差”

当谈到我们的泛化的定义，我在这里写到的至少有5个不同的泛化概念。

Definition 1: Error Response to Validation and Real Data

我们可以将其定义为我们的系统响应验证数据的行为。这是针对我们没有包括在训练集中的数据。我们更将雄心勃勃，将其定义为当系统部署为分析现实世界数据时的行为。我们本质上希望看到我们训练有素的系统在从未见过的数据的情况下能够准确地执行。

Definition 2: Sparsity of Model

第二个定义是基于奥卡姆剃刀的想法。也就是说，最简单的解释就像最好的解释。在这里，我们对数据的形式做出某些假设，并且我们驱动我们的正则化以将解决方案约束到我们的假设。因此，例如在压缩感测领域中，我们假设存在稀疏。从那里，我们可以驱动一个优化问题，搜索具有稀疏基础的解决方案。

Definition 3: Fidelity in Generating Models

第三个定义基于系统重建或重建特征的能力。这是生成模型所采用的方法。如果神经网络能够准确地生成真实的图像，则其能够捕获图像的整体概念。我们看到研究生成方法的研究人员采取这种定义。

Definition 4: Effectiveness in Ignoring Nuisance Features

第四个定义涉及忽略不变特征或烦扰变量的概念。也就是说，如果系统能够忽略其任务的不变特征，则该系统能够良好地推广。删除尽可能多的功能，直到您不能删除。这有点类似于第三定义，但它从另一个角度处理问题。

Definition 5: Risk Minimization

第五个泛化定义围绕着最小化风险的想法。当我们训练我们的系统时，在部署它的上下文中存在不确定性。因此，我们训练我们的模型与预测不可预测的情况的机制。希望的是，该系统对于之前没有预测的上下文是稳健的。这是一种游戏理论定义。我们可以设想一个环境，其中信息将始终是不完美的，并且泛化有效地意味着在环境中执行特定策略。这可能是我们拥有的泛化的最抽象的定义。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-01-04，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自鸿的学习笔记微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

重新思考深度学习里的泛化

重新思考深度学习里的泛化

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐