专栏首页美图数据技术团队梯度下降优化算法概述

梯度下降优化算法概述

感谢阅读「美图数据技术团队」的第 11 篇原创文章,关注我们持续获取美图最新数据技术动态。

平时我们说的训练神经网络就是最小化损失函数的过程,损失函数的值衡量了模型在给定数据集下的表现(拟合)能力。

图 1

损失函数 J 如图 1 所示,B 点为函数最低点,设 A 点为初始值,那么优化器的作用就是指引初始值 A 点走向最低点 B 点,那么如何让这个过程执行的更加迅速呢?

梯度下降了解一下!

位于三维空间里的任意一个点都可以找到与之相切的平面,在高维的情况下也能找到超平面与其相切。那么在相切平面上的任意一个点都有多种方向,但只有一个方向能使该函数值上升最快,这个方向我们称之为梯度方向,而这个梯度方向的反方向就是函数值下降最快的方向,这就是梯度下降的过程

基于以上概念我们进一步了解批量梯度更新 BGD,顾名思义,它就是一次性把所有样本同时计算之后得到梯度值,然后更新参数。这种方法十分简便,它对凸函数可以收敛到全局最优值,对于非凸函数则收敛到局部最优值。与此同时它缺点显而易见:在大数据量下内存占用巨大、计算时间久,并且无法进行在线更新。

面对 BGD 的瓶颈 SGD 应运而生,它每次只更新一个样本,相对比于 BGD ,它的收敛速度更快并且可以在线更新,有机会跳出局部最优。但 SGD 无法利用矩阵操作加速计算过程,考虑到上述两种方法的优缺点,就有了小批量梯度下降算法(MBGD),每次只选取固定小批量数据进行梯度更新。

而基于梯度更新也意味着面临一些挑战:

  • 选择恰当的初始学习率很困难,学习率太大会妨碍收敛,导致损失函数在最小值附近振荡甚至偏离最小值;
  • 非凸的损失函数优化过程存在大量的局部最优解或鞍点;
  • 参数更新采用相同的学习率。

针对上述挑战,接下来为大家列举一些优化算法

如果我们把梯度下降法当作小球从山坡到山谷的一个过程,那么在小球滚动时是带有一定的初速度,在下落过程,小球积累的动能越来越大,小球的速度也会越滚越大,更快的奔向谷底,受此启发就有了动量法 Momentum

如上公式所示,动量法在当前梯度值的基础上再加上一次的梯度值与衰减率 ? 的乘积,这样可以不断累积上一次的梯度值。其中衰减率 ? 一般小于等于 0.9。加上动量项的 SGD 算法在更新模型参数时,对于当前梯度方向与上一次梯度方向相同的参数,则会加大更新力度;而对于当前梯度方向与上一次梯度方向不同的参数,则会进行消减,即在当前梯度方向的更新减慢了。因此,相较于 SGD,动量法可以收敛得更快,并且减少震荡

在动量法中,小球下滚过程如果遇到上坡则会减小速度,那么更好的做法应该是遇到上坡之前就减慢速度。这就是 NAG 的大致思想,相较于动量法,NAG在计算参数的梯度时,在损失函数中减去了动量项,这种方式相当于预估了下一次参数所在的位置。公式如下:

如图 2 所示,蓝色部分是标准的动量法更新过程,首先它会计算当前梯度,接着是累积梯度的大跳跃。而 NAG 则先来一个大跳跃(图中褐色向量),然后在跳跃后的地方计算梯度(下图红色向量)进行修正得到真正的梯度下降方向,即下图中的绿色向量。这样可能会避免产生振荡的情形,如应用于 RNN。

图 2

那能否根据参数的重要性自适应学习率呢?Adagrad 的提出思想是:在学习的过程中自动调整学习率。对于出现频率低的参数使用较大的学习率,出现频率高的参数使用较小的学习率。Adagrad 公式如下:

表示当前参数的梯度值,Adagrad 计算第 t 步之前累加的梯度平方和,以此作为学习率的分母。

Adagrad 在数据分布稀疏的场景能更好利用稀疏梯度的信息,相比 SGD 算法能更有效地收敛。而它的缺点也十分明显,随着时间的增加,它的分母项越来越大,最终导致学习率收缩到太小无法进行有效更新。

Adagrad 的在日常利用率较高,同时也存在着很多「坑」希望大家尽量避免。以 TensorFlow 为例,θ 是防被除零的项,但 TensorFlow 只提供了累积梯度平方和的初始值,并且默认为 0.1。如果我们设置的较小时,会导致初始学习率偏大。实际使用中,可以调整此参数可能有意外收获。

Adadelta 是 Adagrad 的一种改进算法,更新过程中参照了牛顿法。

首先了解一下牛顿法(二阶优化方法),它利用 Hessian 矩阵的逆矩阵替代人工设置的学习率,在梯度下降的时候可以完美的找出下降方向,不会陷入局部最小值。

但是它的缺点十分明显,求逆矩阵的时间复杂度近似 O(n3),计算代价太高,不适合大数据。

上文指出 Adagrad 随着时间增加导致学习率不断变小导致过早收敛,Adadelta 采用梯度平方的指数移动平均数来调节学习率的变化:

但论文中认为这个参数的更新没有遵循参数的单元假设,于是作者第二次尝试采用梯度平方的指数移动平均数来调整得到了:

Adagrad 最大的变化是没有学习率的设置,但是到训练后期进入局部最小值雷区之后就会反复在局部最小值附近抖动。

RMSprop 是 AdaDelta 的一个特例,它由 Geoff Hinton 在公开课中提出,采用梯度平方的指数移动平均数来调整,当参数更新较大时会对它进行「惩罚」,它的公式如下:

RMSprop 相对 Adagrad 梯度下降得较慢,被广泛应用在 CNN 领域。RMSprop 在 Inception v4 内取衰减因子 ?=0.9,参数 ε = 1.0 。

Adam 算法可以看作是 RMSprop 和动量法的结合体:

其中,

是指数移动平均数,可以看成是动量法的过程;

则是梯度平方的指数移动平均数,也就是 RMSProp 的过程。由于基于指数移动平均数的方式存在偏差,特别是在下降初期 m 和 v 被初始化为0并且接近 1 时。为此,引入偏差修正过程:

最后利用偏差修正后的

更新模型参数:

Adam 即 Adaptive Moment Estimation(自适应矩估计),类比于动量法的过程也就是有偏一阶矩估计过程,RMSprop 则对应于有偏二阶矩估计。在日常使用中,往往采用默认学习率 0.001 就可以取得不错的结果。

Adam 计算效率高,适用于稀疏数据&大规模数据场景,更新的步长能够被限制在合理的范围内,并且参数的更新不受梯度的伸缩变换影响。但它可能导致不收敛,或者收敛局部最优点。

由于 Adam 可能导致不收敛,或者收敛局部最优点,因此谷歌在 ICLR 2018 提出了 AMSGrad,该论文中提到这样一个问题:

对于 SGD 和 AdaGrad 可以保证学习率总是衰减的, 而基于滑动平均的方法则未必。实际上,以 Adam 为代表的自适应算法存在两个主要问题:

  • 可能不收敛
  • 可能收敛于局部最优点

RMSprop 会对最近增加的值提出比较大的更新,随着步数梯的增加慢慢消散它的作用;Adagrad 以梯度的平方进行累积,所以说基于滑动平均的方法不一定能够保证走势衰减。那么怎么确保学习率得到衰减?

AMSGrad 在二阶局部更新过程中通过取当前值与上一次的值的最大值用于计算∆?,确保学习率的衰减。

图 3

以上就是现有的主流梯度下降优化算法,总结一下以上方法,如图 3 所示,SDG 的值在鞍点中无法逃离;动量法会在梯度值为0时添加动能之后跳过该点;而 Adadelta 虽然没有学习率但在收敛过程非常快。

最后我们思考一个问题:怎么用现有的优化算法达到 state-of-art?

抛砖引玉,期待你们的更优答案:

1.SGD + Momentum 被大量用在CNN 、NLP 问题上 2.Adam + SGD Adam加速收敛过程,可能陷入到局部最小值或无法收敛,此时用小学习率 SGD 帮助 adam 跳出局部最小值。

本文分享自微信公众号 - 美图数据技术团队(gh_feb1d206d92b),作者:吴艺

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Hello Spark! | Spark,从入门到精通

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的大数...

    美图数据技术团队
  • Hello Spark! | Spark,从入门到精通

    欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,...

    美图数据技术团队
  • 美图分布式Bitmap实践:Naix

    大数据技术和应用系统目前已经在各个行业中发挥着巨大的作用,各种各样的开源技术也给大数据从业人员带来了很大的便利。Bitmap 作为一种大数据需求下产生的计算体系...

    美图数据技术团队
  • 神经网络使用梯度下降的原因(摘自我写的书)

    目前深度神经网络模型的优化方法主要是梯度下降。我们使用梯度下降的方法来进行误差的反向传播,不断地调整模型参数,以降低模型所产生的误差,使模型更好实现从输入到输出...

    黄鸿波
  • 为什么ResNet和DenseNet可以这么深? | 一文详解残差块为何能解决梯度弥散问题

    传统的“提拉米苏”式卷积神经网络模型,都以层叠卷积层的方式提高网络深度,从而提高识别精度。但层叠过多的卷积层会出现一个问题,就是梯度弥散(Vanishing),...

    用户1332428
  • 开发 | 为什么ResNet和DenseNet可以这么深?一文详解残差块为何有助于解决梯度弥散问题。

    AI科技评论按:本文作者Professor ho,原文载于其知乎主页,雷锋网获其授权发布。 传统的“提拉米苏”式卷积神经网络模型,都以层叠卷积层的方式提高网络深...

    AI科技评论
  • 为什么ResNet和DenseNet可以这么深?一文详解残差块为何有助于解决梯度弥散问题

    传统的“提拉米苏”式卷积神经网络模型,都以层叠卷积层的方式提高网络深度,从而提高识别精度。但层叠过多的卷积层会出现一个问题,就是梯度弥散(Vanishing),...

    AI研习社
  • 学界 | 深度梯度压缩:降低分布式训练的通信带宽

    选自arXiv 机器之心编译 参与:Panda ICLR 2018 将在当地时间明年 4 月 30 日~5 月 3 日在加拿大温哥华举办。目前正处于评审阶段的会...

    机器之心
  • 机器学习 学习笔记(3) 梯度下降

    梯度下降法是一种常用的一阶优化方法,是求解无约束优化问题最简单、最经典的方法之一。

  • 详解机器学习中的梯度消失、爆炸原因及其解决方法

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_25737169/article/d...

    DoubleV

扫码关注云+社区

领取腾讯云代金券