专栏首页机器之心学界 | Yoshua Bengio与MIT发表新论文:深度学习中的泛化

学界 | Yoshua Bengio与MIT发表新论文:深度学习中的泛化

选自arXiv

机器之心编译

参与:路雪、刘晓坤

日前,MIT 和 Bengio 发表新论文,探讨深度学习中的泛化。该论文解释了深度学习能够实现较好泛化的原因,并提出了一系列新型正则化方法。机器之心对该论文进行了编译。

论文链接:https://arxiv.org/abs/1710.05468

本论文解释了为什么深度学习在面临容量过大、算法不稳定、非鲁棒和尖点等问题时仍能实现较好的泛化。基于理论的探索,该论文提出了一系列新的正则化方法。实验证明,即使其中最简单的方法也可以将基础模型在 MNIST 和 CIFAR-10 上的表现提升到业内最佳水平。此外,本文提出了数据依赖性(data-dependent)和数据独立性的泛化保证,它们提高了收敛速度。我们的研究引出了一系列新方向。

1 引言

一些经典的理论研究把泛化能力归功于小容量模型类别的使用(Mohri et al., 2012)。从与小容量相关的紧凑表示(compact representation)的角度来看,深度模型类别在展示特定的自然目标函数时比浅层的模型类别具有指数优势(Pascanu et al., 2014; Montufar et al., 2014; Livni et al., 2014; Telgarsky, 2016; Poggio et al., 2017)。也就是说,如果模型类别中包含的某些假设(如分段线性转换的深度合成)被目标函数近似满足,则与不依赖该假设的方法相比,该模型可以实现很好的泛化。但是,近期的一篇论文(Zhang et al., 2017a)的实验表明成功的深度模型类别具备足够的容量来存储随机标签。该观察叫作「apparent paradox」,引起了研究者的广泛讨论。Dinh et al. (2017) 认为解释深度学习模型为何能够在大容量的情况下仍然实现较好的泛化效果是一个仍待研究的领域。

在本论文中,我们提出了对「apparent paradox」的一种解释。第三章从理论上证明了「apparent paradox」不仅存在于深度学习中,还存在于整个机器学习中。第四章中,我们认为应该重新思考泛化和学习理论,并通过重新思考得出了对深度学习中的泛化的一种新理解。第五章介绍了泛化界的改进,第六章介绍了对正则化的一种有用的理论见解。

3 重新思考机器学习中的泛化

Zhang et al. (2017a) 的实验表明多种深度模型类别能够存储随机标签,并且在特定的自然数据集(如 CIFAR-10)上的输出包含零训练误差和很小的测试误差。他们的实验还观察到在权重范数上的正则化似乎未必产生小的测试误差,这与传统观点并不一致。

命题 1 认为这些现象并不局限于深度学习和线性模型类别中:任何机器学习模型类别本质上都具备这些现象的核心特性。

命题 1 给定(未知)度量 P_(x,y) 和数据集 S_m,假设存在

,在

时,使

。那么

  • (i)对于模型复杂度能够存储任意数据集和在任意尖点(sharp minimum)上可能包括

的任意模型类别 F,存在 (A, S_m) 使泛化差距不超过

  • (ii)对于任意数据集 S_m,存在任意不稳定和非鲁棒的算法 A,使

的泛化差距不超过

5 神经网络的泛化保证

上一章通过实例对泛化进行解释。然而,求出泛化差距

(Role 2)的理论保证仍然是很有意思的问题,这正是本章所关注的内容。为了更仔细地分析神经网络,本章将对神经网络直接进行分析,而不是从基于容量、稳定性或鲁棒性的一般理论中推导出神经网络的结果。

6 对实用价值的理论洞察

本章中,我们关注具备 d_y 个类别的多分类问题,如图像目标分类。相应地,我们将使用 0—1 损失函数分析期望风险,即 R[f] = E_x[1{f(x) = y(x)}],其中

是模型的预测,y(x) ∈ {1, . . . , d_y} 是 x 的真实标签(参见 2.4.1 中对随机标签的扩展,Mohri et al. 2012)。

6.3 实验结果

通过向现有的的标准代码中添加等式(2)中新的正则化项:

我们在 MNIST 和 CIFAR-10 数据集上对论文中提出的方法(DARC1)进行了评估。

表 1:测试误差(%)。LeNet 和 ResNeXt-29(16 × 64d)的标准变体和添加了本文研究正则项的模型在 MNIST 和 CIFAR-10 数据集上的比较结果。

表 2:测试误差率(DARC1/Base)

表 3:每一个模型的正则化项

的值。

7 结论

我们从逻辑上理解理论和实践存在差异,进而将泛化理论分成了几个部分,并对每一个部分都作出了如下贡献:

  • 对深度学习中的泛化进行解释(Role 1);
  • 对泛化边界的改进(Role 2);
  • 对正则化的有用的理论洞察(Role 3)。

根据我们在 5.3 中的观察结果,如果可以在分析中正确处理深度路径激活向量 z_i 的依赖性,则我们可以获得严格的保证。通过明确地破坏依赖,我们的二阶段训练流程可以使理论分析更加简单。然而,有趣的是,未来的研究是否能在不使用二阶段流程的情况下,在分析中严格地控制依赖呢?

我们第 6 章的理论洞察衍生了一族新的泛化方法,即 DARC。我们对其最简单的版本进行了评估,实验产生多个有潜在价值的结果,表明 DARC 具有进一步研究的价值。

本文为机器之心编译,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-10-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学界 | 模型的泛化能力仅和Hessian谱有关吗?

    经验表明,通过训练深度神经网络得到的不同局部最优值往往并不能以相同的方式泛化到未知数据集上,即使取得了相同的训练损失。近年来,这一问题日益受到经验和理论深度学习...

    机器之心
  • 从2019 AI顶会最佳论文,看深度学习的理论基础

    如果能有一种理论告诉我们什么样的模型架构、运算方式能最好地表示某种数据,什么样的损失函数、迭代方式能最高效地学习到某种能力,什么样的设置又使这种能力能处理各种意...

    机器之心
  • 深度 | 思考VC维与PAC:如何理解深度神经网络中的泛化理论?

    机器之心
  • 拒绝DNN过拟合,谷歌准确预测训练集与测试集泛化差异,还开源了数据集 | ICLR 2019

    深度神经网络(DNN)如今已经无处不在,从下围棋到打星际,DNN已经渗透到图像识别、图像分割、机器翻译等各种领域,并且总是表现惊艳。

    量子位
  • ICLR 2019 | 如何理解深度神经网络的泛化性能?谷歌认为可以从「泛化鸿沟」入手

    AI 科技评论按:深度神经网络(DNN)作为机器学习的基础,为图像识别、图像分割、机器翻译等诸多领域取得突破性进展做出了重大贡献,然而研究人员始终都无法完全理解...

    AI研习社
  • ICLR 2019 | 如何理解深度神经网络的泛化性能?谷歌认为可以从「泛化鸿沟」入手

    AI 科技评论按:深度神经网络(DNN)作为机器学习的基础,为图像识别、图像分割、机器翻译等诸多领域取得突破性进展做出了重大贡献,然而研究人员始终都无法完全理解...

    AI科技评论
  • 「机器学习」:不得不知的概念(2)

    在上一篇推送中我们总结了机器学习第一课,一些最最基本的概念,比如特征,训练集,维数,假设空间等,接下来,继续介绍机器学习第二课,通过一个例子说明什么是机器学习的...

    double
  • 学界 | 模型的泛化能力仅和Hessian谱有关吗?

    经验表明,通过训练深度神经网络得到的不同局部最优值往往并不能以相同的方式泛化到未知数据集上,即使取得了相同的训练损失。近年来,这一问题日益受到经验和理论深度学习...

    机器之心
  • ICLR2020 | 谷歌最新研究:用“复合散度”量化模型合成泛化能力

    据官方消息,ICLR 2020会议将取消线下会议,并于4月25日-30日线上举办虚拟会议。本届会议共有 2594篇投稿,其中 687篇论文被接收(48篇oral...

    AI科技评论
  • 深度神经网络的泛化间隙

    深度神经网络(DNN)如今已经无处不在,从下围棋到打星际,DNN已经渗透到图像识别、图像分割、机器翻译等各种领域,并且总是表现惊艳。

    商业新知

扫码关注云+社区

领取腾讯云代金券