前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学界 | Yoshua Bengio与MIT发表新论文:深度学习中的泛化

学界 | Yoshua Bengio与MIT发表新论文:深度学习中的泛化

作者头像
机器之心
发布2018-05-08 12:17:02
6430
发布2018-05-08 12:17:02
举报
文章被收录于专栏:机器之心

选自arXiv

机器之心编译

参与:路雪、刘晓坤

日前,MIT 和 Bengio 发表新论文,探讨深度学习中的泛化。该论文解释了深度学习能够实现较好泛化的原因,并提出了一系列新型正则化方法。机器之心对该论文进行了编译。

论文链接:https://arxiv.org/abs/1710.05468

本论文解释了为什么深度学习在面临容量过大、算法不稳定、非鲁棒和尖点等问题时仍能实现较好的泛化。基于理论的探索,该论文提出了一系列新的正则化方法。实验证明,即使其中最简单的方法也可以将基础模型在 MNIST 和 CIFAR-10 上的表现提升到业内最佳水平。此外,本文提出了数据依赖性(data-dependent)和数据独立性的泛化保证,它们提高了收敛速度。我们的研究引出了一系列新方向。

1 引言

一些经典的理论研究把泛化能力归功于小容量模型类别的使用(Mohri et al., 2012)。从与小容量相关的紧凑表示(compact representation)的角度来看,深度模型类别在展示特定的自然目标函数时比浅层的模型类别具有指数优势(Pascanu et al., 2014; Montufar et al., 2014; Livni et al., 2014; Telgarsky, 2016; Poggio et al., 2017)。也就是说,如果模型类别中包含的某些假设(如分段线性转换的深度合成)被目标函数近似满足,则与不依赖该假设的方法相比,该模型可以实现很好的泛化。但是,近期的一篇论文(Zhang et al., 2017a)的实验表明成功的深度模型类别具备足够的容量来存储随机标签。该观察叫作「apparent paradox」,引起了研究者的广泛讨论。Dinh et al. (2017) 认为解释深度学习模型为何能够在大容量的情况下仍然实现较好的泛化效果是一个仍待研究的领域。

在本论文中,我们提出了对「apparent paradox」的一种解释。第三章从理论上证明了「apparent paradox」不仅存在于深度学习中,还存在于整个机器学习中。第四章中,我们认为应该重新思考泛化和学习理论,并通过重新思考得出了对深度学习中的泛化的一种新理解。第五章介绍了泛化界的改进,第六章介绍了对正则化的一种有用的理论见解。

3 重新思考机器学习中的泛化

Zhang et al. (2017a) 的实验表明多种深度模型类别能够存储随机标签,并且在特定的自然数据集(如 CIFAR-10)上的输出包含零训练误差和很小的测试误差。他们的实验还观察到在权重范数上的正则化似乎未必产生小的测试误差,这与传统观点并不一致。

命题 1 认为这些现象并不局限于深度学习和线性模型类别中:任何机器学习模型类别本质上都具备这些现象的核心特性。

命题 1 给定(未知)度量 P_(x,y) 和数据集 S_m,假设存在

,在

时,使

。那么

  • (i)对于模型复杂度能够存储任意数据集和在任意尖点(sharp minimum)上可能包括

的任意模型类别 F,存在 (A, S_m) 使泛化差距不超过

  • (ii)对于任意数据集 S_m,存在任意不稳定和非鲁棒的算法 A,使

的泛化差距不超过

5 神经网络的泛化保证

上一章通过实例对泛化进行解释。然而,求出泛化差距

(Role 2)的理论保证仍然是很有意思的问题,这正是本章所关注的内容。为了更仔细地分析神经网络,本章将对神经网络直接进行分析,而不是从基于容量、稳定性或鲁棒性的一般理论中推导出神经网络的结果。

6 对实用价值的理论洞察

本章中,我们关注具备 d_y 个类别的多分类问题,如图像目标分类。相应地,我们将使用 0—1 损失函数分析期望风险,即 R[f] = E_x[1{f(x) = y(x)}],其中

是模型的预测,y(x) ∈ {1, . . . , d_y} 是 x 的真实标签(参见 2.4.1 中对随机标签的扩展,Mohri et al. 2012)。

6.3 实验结果

通过向现有的的标准代码中添加等式(2)中新的正则化项:

我们在 MNIST 和 CIFAR-10 数据集上对论文中提出的方法(DARC1)进行了评估。

表 1:测试误差(%)。LeNet 和 ResNeXt-29(16 × 64d)的标准变体和添加了本文研究正则项的模型在 MNIST 和 CIFAR-10 数据集上的比较结果。

表 2:测试误差率(DARC1/Base)

表 3:每一个模型的正则化项

的值。

7 结论

我们从逻辑上理解理论和实践存在差异,进而将泛化理论分成了几个部分,并对每一个部分都作出了如下贡献:

  • 对深度学习中的泛化进行解释(Role 1);
  • 对泛化边界的改进(Role 2);
  • 对正则化的有用的理论洞察(Role 3)。

根据我们在 5.3 中的观察结果,如果可以在分析中正确处理深度路径激活向量 z_i 的依赖性,则我们可以获得严格的保证。通过明确地破坏依赖,我们的二阶段训练流程可以使理论分析更加简单。然而,有趣的是,未来的研究是否能在不使用二阶段流程的情况下,在分析中严格地控制依赖呢?

我们第 6 章的理论洞察衍生了一族新的泛化方法,即 DARC。我们对其最简单的版本进行了评估,实验产生多个有潜在价值的结果,表明 DARC 具有进一步研究的价值。

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-10-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档