重新思考深度学习里的泛化

2017 ICLR提交的“UnderstandingDeep Learning required Rethinking Generalization”必然会打乱我们对深度学习的理解。 这里是一些总结:1.神经网络的有效容量对于整个数据集的brute-force内存是足够大的。2.即使对随机标签的优化仍然会很容易。事实上,与对真实标签的训练相比,训练时间只增加了一个小的常量。3.随机化标签只是一种数据变换,使的学习问题的所有其他属性保持不变。作者实际上引入了两个新的定义来表达他们观测的内容去描述关于“显式”和“隐式”正则化的讨论。删除,数据增加,权重共享,常规正则化都是显式正则化。隐含正则化是早期停止,批量规范和SGD。这是一个非常奇怪的定义,我们后续会讨论。

我理解的正则化有两种类型。我会使用术语“建设性正规化”和“训练性正规化”。通过训练的正则化,这是正则化术语的正常使用。还有“建设性正则化”,这是我们在构建我们的网络时选择的模型选择的结果。存在区别的原因是,在数学上它们确实等价地作为约束项出现时,在训练之后,即在推理路径中,正则化通常不存在。在训练和推理阶段,建设性正规化总是存在的。

现在的论文有显式和隐式正则化之间的区别。一个用于归一化不同输入样本的激活的分批归一化(BN),但是也会正则化,因此它是隐式正则化。两者之间的区别是正则化的目的。后者是隐性泛化。意思是该技术意想不到的后果是正则化。所以研究人员不认为一个方法会导致正则化,并且这就是他们所谓的“隐性”正则化。我认为,Hinton的期望的Drop Out不会导致正则化。这就是为什么我认为定义是非常模糊,但我明白为什么他们介绍这个想法。

然而正则化的目的是改进泛化。这也是BN的作用。事实上,对于初始架构,BN更倾向于drop out。说到规范化,有这几种形式,批处理和层规范化是两个最流行的版本。 BN的动机应该是Domain Adaptation。 Domain Adaptation是否不同于泛化?不只是一种特定的泛化吗?还有其他种类的泛化吗?如果是,他们是什么?作者做出了令人惊讶的发现,这是一种似乎无法概括的方法,更具体地SGD,事实上。另一个ICLR 2017年论文An Empirical Analysis of Deep Network Loss Surfaces增加了对此SGD属性的确认。 本文显示,不同SGD方法的losssurfaces上彼此的不同。

它让我想起了量子力学,其中探针会影响观察。这里的学习方法会影响学习的内容。在神经网络的这种新的观点中,brute force内存或者全息机器,那么或许量子力学的想法可能需要发挥作用。量子力学的出现是因为在经典动力学中泊松括号的不可交换性。我们有两个变量,位置和动量,这是密不可分的。在深度学习中,有两个以上的变量捆绑在一起,导致正则化。我们至少有3个变量:学习方法,网络模型和生成模型,似乎都对泛化有影响。“显式正则化可以提高泛化性能,但是既不必要也不足以控制泛化误差”

当谈到我们的泛化的定义,我在这里写到的至少有5个不同的泛化概念。

Definition 1: Error Response to Validation and Real Data

我们可以将其定义为我们的系统响应验证数据的行为。这是针对我们没有包括在训练集中的数据。我们更将雄心勃勃,将其定义为当系统部署为分析现实世界数据时的行为。我们本质上希望看到我们训练有素的系统在从未见过的数据的情况下能够准确地执行。

Definition 2: Sparsity of Model

第二个定义是基于奥卡姆剃刀的想法。也就是说,最简单的解释就像最好的解释。在这里,我们对数据的形式做出某些假设,并且我们驱动我们的正则化以将解决方案约束到我们的假设。因此,例如在压缩感测领域中,我们假设存在稀疏。从那里,我们可以驱动一个优化问题,搜索具有稀疏基础的解决方案。

Definition 3: Fidelity in Generating Models

第三个定义基于系统重建或重建特征的能力。这是生成模型所采用的方法。如果神经网络能够准确地生成真实的图像,则其能够捕获图像的整体概念。我们看到研究生成方法的研究人员采取这种定义。

Definition 4: Effectiveness in Ignoring Nuisance Features

第四个定义涉及忽略不变特征或烦扰变量的概念。也就是说,如果系统能够忽略其任务的不变特征,则该系统能够良好地推广。删除尽可能多的功能,直到您不能删除。这有点类似于第三定义,但它从另一个角度处理问题。

Definition 5: Risk Minimization

第五个泛化定义围绕着最小化风险的想法。当我们训练我们的系统时,在部署它的上下文中存在不确定性。因此,我们训练我们的模型与预测不可预测的情况的机制。希望的是,该系统对于之前没有预测的上下文是稳健的。这是一种游戏理论定义。我们可以设想一个环境,其中信息将始终是不完美的,并且泛化有效地意味着在环境中执行特定策略。这可能是我们拥有的泛化的最抽象的定义。

原文发布于微信公众号 - 鸿的学习笔记(shujuxuexizhilu)

原文发表时间:2017-01-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

当前训练神经网络最快的方式:AdamW优化算法+超级收敛

Adam 优化器之旅可以说是过山车(roller-coaster)式的。该优化器于 2014 年推出,本质上是一个出于直觉的简单想法:既然我们明确地知道某些参数...

1402
来自专栏Duncan's Blog

Twitter用户数据Profiling

传统的数据摘要包括data exploration/data cleansing/data integration.而之后,data management和bi...

1893
来自专栏PPV课数据科学社区

【源码】机器学习算法清单!附Python和R代码

本文约6000字,建议阅读8分钟。 通过本文为大家介绍了3种机器学习算法方式以及10种机器学习算法的清单,学起来吧~ 前言 谷歌董事长施密特曾说过:虽然谷歌的无...

3263
来自专栏专知

【QA论文笔记】问答对排序新方法,层次循环编码器与主题聚类结合

2483
来自专栏数据科学与人工智能

【算法】10 种机器学习算法要点

小编邀请您,先思考: 1 你熟悉那些机器学习算法? 2 你如何应用机器学习算法? 前言 谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注...

3759
来自专栏CSDN技术头条

Yoshua Bengio等大神传授:26条深度学习经验

【编者按】8月初的蒙特利尔深度学习暑期班,由Yoshua Bengio、 Leon Bottou等大神组成的讲师团奉献了10天精彩的讲座,剑桥大学自然语言处理与...

2086
来自专栏机器人网

十种深度学习算法要点及代码解析

谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明、更个性化的技术。 也许我们生活...

1.1K7
来自专栏智能算法

Yoshua Bengio等大神传授:26条深度学习经验

原文地址:http://www.marekrei.com/blog/26-things-i-learned-in-the-deep-learning-summe...

3716
来自专栏数据科学与人工智能

【机器学习】10 种机器学习算法的要点

前言 谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明、更个性化的技术。 也许我...

2487
来自专栏量子位

以为GAN只能“炮制假图”?它还有这7种另类用途

最近,AI方案设计师Alexandor Honchar在Medium网站上分享一篇文章。他认为生成对抗网络(GAN)目前在生成图像取得了巨大进展,生成的图像几乎...

1232

扫码关注云+社区

领取腾讯云代金券