Facebook FAIR实验室田渊栋等人最新论文:别担心深度网络中的虚假局部极小值

【导读】近日,Facebook FAIR实验室、南加州大学与卡耐基梅隆大学提出《Gradient Descent Learns One-hidden-layer CNN: Don't be Afraid of Spurious Local Minima》 文章证明了在高斯分布的输入和L2损失的条件下(1)对于两层的神经网络,存在虚假的局部极小,但是梯度下降可以以一定概率收敛到全局最优点,给出了单隐层神经网络梯度下降的多项式收敛保证。(2)梯度下降的训练过程分为两个部分,一个缓慢的开始阶段和一个线性速率的收敛过程。以下是相关论文介绍。

▌论文简介


论文:Gradient Descent Learns One-hidden-layer CNN: Don't be Afraid of Spurious Local Minima

这篇文章分析了一种非重叠的ReLU激活的单隐层神经网络:

证明了对于高斯输入Z,存在非全局最小值的虚假的局部极小值。令人惊奇的是,在存在局部极小值的情况下,可以证明,随机初始化的权值+权值正则化仍然能以恒定的概率(任意精度)到达全局最优。我们同样可以证明,这个相同的过程可以以恒定的概率收敛到虚假的局部极小值,这说明局部极小值在梯度下降的动态过程中起到了重要的作用。量化的分析表明,梯度下降有两个阶段:开始比较慢,然后几轮迭代后收敛速度变快。

图1(a):拥有未知的非重叠滤波器和未知输出层的CNN,第一个隐层,w作用于输入x中的非重叠的部分,然后再通过一个ReLU激活函数,最终的输出为隐层输出与向量a的内积。

图1(b):这是上图(a)中CNN收敛性的图示,卷积大小p=20,非重叠块数目k=25 。图中展示了收敛到全局最优和虚假的局部极小的情况。其中前50epoch收敛速度很慢,之后梯度下降线性收敛。

图1:CNN设置与使用梯度下降进行网络学习的收敛速度。

▌模型简介


我们也可以看到训练算法的伪代码,其和普通的梯度下降没有区别。

本文证明了在高斯分布的输入和l2损失的条件下:

  • 1. 梯度下降的多项式收敛保证:

对于两层的神经网络,存在虚假的局部极小,但是梯度下降可以以一定概率收敛到全局最优点。首次给出了单隐层神经网络梯度下降的多项式收敛保证。

证明首先利用高斯分布的旋转不变性定义了损失函数。

然后得到了梯度的期望值

首先

该引理表明,当梯度下降收敛,且

不正交,则必定收敛于全局最优点或者局部极小值点中的一个。

这个引理表明,当

时,我们会向全局最优点收敛。这意味着我们要分析

然后就可以证明

这个定理表示,我们只需要遍历4种形式的向量对,就可以高概率地得到全局最优点。

  • 2. 梯度下降过程分析:

这个引理表明,收敛速度取决于两个重要的量

开始的时候,这两个量都很小。经过一段时间后,

,从而得到

,进入第二个收敛阶段。

于是我们可以证明,梯度下降的训练过程分为两个部分,一个缓慢的开始阶段和一个线性速率的收敛。

▌结论和未来方向


本文给出了用于学习一个隐藏层卷积神经网络的随机初始化梯度下降算法的第一多项式收敛保证。结果揭示了一个有趣的现象,即随机初始化局部搜索算法可以收敛到全局最小值或假的局部极小值,并且这两种情况的发生具有恒定的概率。文中对梯度下降动态性(gradient descent dynamics)给出了一个完整的定量描述来解释两阶段的收敛现象。这里我们列出一些未来的方向。

本文的分析集中在高斯输入的整体损失。在实践中,人们使用(随机)经验损失的梯度下降。[Mei et al,2016。Soltanolkotabi,2017。Daskalakis et al,2016。Xu et al,2016] 中的结果对于将文中的结果推广到经验版本是有用的。一个更具挑战性的问题是如何扩展梯度动态分析的旋转不变输入分布。Du et al[2017b] 在单层卷积神经网络的某些结构输入分布假设下证明了梯度下降的收敛性。将他们的见解带入本文的环境将会很有趣。

另一个有趣的方向是将文中的结果推广到更深更广的体系结构。具体而言,一个开放的问题是在什么条件下随机初始化梯度下降算法可以学习一个隐层全连接的神经网络或一个多核卷积神经网络。现有的结果往往需要很好地进行初始化 [Zhong et al,2017a,b]。我们相信本文的观点,特别是文中4.1节中的不变原理,有助于理解这些设置中基于梯度的算法的行为。

论文:Gradient Descent Learns One-hidden-layer CNN: Don't be Afraid of Spurious Local Minima

▌摘要


这篇文章分析了一种非重叠的ReLU激活的单隐层神经网络,例如

,其中卷积权值w和输出权值a是要学习的参数。本文证明了对于高斯输入Z,存在非全局最小值的虚假的局部极小值。令人惊奇的是,在存在局部极小值的情况下,可以证明,从随机初始化的权值开始,具有权值正则化的梯度下降仍然能以恒定的概率(通过多次重启,其可以被提升至任意精度)到达全局最优。

我们同样可以证明,这个相同的过程可以以恒定的概率收敛到虚假的局部极小值,这说明局部极小值在梯度下降的动态过程中起到了重要的作用。量化的分析表明,梯度下降有两个阶段:开始比较慢,在几轮迭代后收敛速度变快。

参考文献

论文链接:https://arxiv.org/abs/1712.00779

▌特别提示-Gradient Descent Learns One-hidden-layer CNN: Don't be Afraid of Spurious Local Minima 论文下载:

请关注专知公众号

  • 后台回复“GDLC” 就可以获取论文pdf下载链接

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2017-12-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏郭耀华‘s Blog

【深度学习】深入理解Batch Normalization批标准化

这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文...

4337
来自专栏机器之心

深度 | 用于图像分割的卷积神经网络:从R-CNN到Mark R-CNN

选自Athelas 作者:Dhruv Parthasarathy 机器之心编译 参与:王宇欣、hustcxy、黄小天 卷积神经网络(CNN)的作用远不止分类那么...

3686
来自专栏SIGAI学习与实践平台

基于内容的图像检索技术综述-CNN方法

传统方法在图像检索技术上一直表现平平。比如传统方法常用的SIFT特征,它对一定程度内的缩放、平移、旋转、视角改变、亮度调整等畸变,都具有不变性,是当时最重要的图...

2265
来自专栏小鹏的专栏

trick—Data Augmentation

海康威视经验 ?         数据增强对最后的识别性能和泛化能力都有着非常重要的作用。我们使用下面这些数据增强方法。第一,对颜色的数据增强,包括色彩的饱和...

4956
来自专栏小樱的经验随笔

回归与梯度下降法及实现原理

回归与梯度下降 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回...

3926
来自专栏AI星球

逻辑回归(LR)个人学习总结篇

逻辑回归(LR,Logistic Regression)是传统机器学习中的一种分类模型,由于LR算法具有简单、高效、易于并行且在线学习(动态扩展)的特点,在工业...

8494
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 10 - NN基本功:反向传播的推导

上一篇 9 “驱魔”之反向传播大法引出了反向传播算法——神经网络的引擎,并在最后窥探了它的全貌。本篇将详细的讨论反向传播各方面的细节。尽管它被TensorFl...

4056
来自专栏大数据挖掘DT机器学习

隐马尔可夫模型攻略

隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然...

36711
来自专栏小小挖掘机

查收一份附带答案的面经!

1.1.1 全量梯度下降(Batch gradient descent) 每次使用全量的训练集样本来更新模型参数,即θ=θ−η⋅∇θJ(θ)。 优点:每次更新都...

2193
来自专栏SIGAI学习与实践平台

神经网络的激活函数总结

激活函数在神经网络中具有重要的地位。在SIGAI之前的公众号文章“理解神经网络的激活函数”中,我们回答了3个关键的问题:

1370

扫码关注云+社区

领取腾讯云代金券