专栏首页人工智能LeadAI深度学习优化器总结

深度学习优化器总结

正文共3418个字,47张图,预计阅读时间17分钟。

Batch gradient descent

每次更新我们需要计算整个数据集的梯度,因此使用批量梯度下降进行优化时,计算速度很慢,而且对于不适合内存计算的数据将会非常棘手。批量梯度下降算法不允许我们实时更新模型。

但是批量梯度下降算法能确保收敛到凸平面的全局最优和非凸平面的局部最优。

SGD

随机梯度下降算法参数更新针对每一个样本集x(i) 和y(i) 。批量梯度下降算法在大数据量时会产生大量的冗余计算,比如:每次针对相似样本都会重新计算。这种情况时,SGD算法每次则只更新一次。因此SGD算法通过更快,并且适合online。

但是SGD以高方差进行快速更新,这会导致目标函数出现严重抖动的情况。一方面,正是因为计算的抖动可以让梯度计算跳出局部最优,最终到达一个更好的最优点;另一方面,SGD算法也会因此产生过调。

Min-batch gradient descent

该算法有两个好处,1):减少了参数更新的变化,这可以带来更加稳定的收敛。2:可以充分利用矩阵优化,最终计算更加高效。但是Min-batch梯度下降不保证好的收敛性。

Batch gradient descent、SGD、min-batch gradient descent算法都需要预先设置学习率,并且整个模型计算过程中都采用相同的学习率进行计算。这将会带来一些问题,比如

1):选择一个合适的学习率是非常困难的事情。学习率较小,收敛速度将会非常慢;而学习率较大时,收敛过程将会变得非常抖动,而且有可能不能收敛到最优。

2):预先制定学习率变化规则。比如,计算30轮之后,学习率减半。但是这种方式需要预先定义学习率变化的规则,而规则的准确率在训练过程中并不能保证。

3):上述三种算法针对所有数据采用相同的学习速率,但是当我们的数据非常稀疏的时候,我们可能不希望所有数据都以相同的方式进行梯度更新,而是对这种极少的特征进行一次大的更新。

4):高度非凸函数普遍出现在神经网络中,在优化这类函数时,另一个关键的挑战是使函数避免陷入无数次优的局部最小值。

Momentum

动量可以加速SGD算法的收敛速度,并且降低SGD算法收敛时的震荡。

通过添加一个衰减因子到历史更新向量,并加上当前的更新向量。当梯度保持相同方向时,动量因子加速参数更新;而梯度方向改变时,动量因子能降低梯度的更新速度。

NAG

滚雪球游戏中,我们希望有一个智能的雪球,它能够预知运动的方向,以至于当它再次遇到斜坡的时候会减慢速度。我们可以通过计算来渐进估计下一个位置的参数(梯度并不是完全更新),即为

Adagrad

Adagrad优化算法是一种自适应优化算法,针对高频特征更新步长较小,而低频特征更新较大。因此该算法适合应用在特征稀疏的场景。

先前的算法对每一次参数更新都是采用同一个学习率,而adagrad算法每一步采用不同的学习率进行更新。我们计算梯度的公式如下:

SGD算法进行参数更新的公式为:

Adagrad算法在每一步的计算的时候,根据历史梯度对学习率进行修改

这里G是一个对角矩阵,对角线元素是截止当前时刻的历史梯度的平方和,eta是一个平方项。如果不执行均方根操作,算法的性能将会变得很差。

G包含了针对所有历史梯度的平方和,因此我们可以用矩阵元素乘的形式来表达上式:

Adagrad算法的主要优点是它避免了手动调整学习率的麻烦,大部分的实现都采用默认值0.01。

Adagrad算法主要的缺点在于,其分母梯度平方的累加和。因为每次加入的都是一个正数,随着训练的进行,学习率将会变得无限小,此时算法将不能进行参数的迭代更新。

Adadelta

Adadelta算法是adagrad算法的改进版,它主要解决了adagrad算法单调递减学习率的问题。通过约束历史梯度累加来替代累加所有历史梯度平方。这里通过在历史梯度上添加衰减因子,并通过迭代的方式来对当前的梯度进行计算,最终距离较远的梯度对当前的影响较小,而距离当前时刻较近的梯度对当前梯度的计算影响较大。

通常,我们设置lambda参数为0.9。为了清楚的表达,这里我们再次列出SGD算法的计算公式:

而adagrad算法的计算公式为:

这里我们简单的替换对角矩阵G为E(带衰减的历史梯度累加)

上式分母正好是均方误差根(RMS),这里我们用简写来表达:

作者提到参数更新应该有相同的假设,因此我们定义另一个指数衰减平均,这里采用的是参数更新的平方:

因为t时刻,RMS[]项未知,因此我们采用先前的参数RMS对当前时刻进行渐进表示。最终我们有如下表达式:

采用Adadelta算法作为模型优化器算法时,我们已经不需要设置默认学习率。

RMSprop

RMSPprop算法和adadelta算法都是adagrad算法的优化版,用于解决adagrad算法学习率消失的问题,从最终的计算公式来看,RMSProp算法和Adadelta算法有相似的计算表达式

Adam

Adam算法是另一种自适应参数更新算法。和Adadelta、RMSProp算法一样,对历史平方梯度v(t)乘上一个衰减因子,adam算法还存储了一个历史梯度m(t)。

mt和vt分别是梯度一阶矩(均值)和二阶矩(方差)。当mt和vt初始化为0向量时,adam的作者发现他们都偏向于0,尤其是在初始化的时候和衰减率很小的时候(例如,beta1和beta2趋近于1时)。

通过计算偏差校正的一阶矩和二阶矩估计来抵消偏差:

利用上述的公式更新参数,得到adam的更新公式:

AdaMax

Adam算法对历史梯度的二范数进行计算

这里我们可以改为计算历史梯度的p范数

较大的p,将会使数值计算不稳定,这也是实际中大量使用1范数和2范数的原因。然而,无穷范数则是稳定的。鉴于此,作者提出Adamax算法,通过计算无穷范数,使矩估计收敛到稳定。为了和adam算法区分开,这里用u(t)表示:

替换adam算法参数更新公式分母,可得:

Nadam

Adam算法可以看作是RMSProp算法和Momentum的结合版。RMSProp算法通过对历史梯度平方乘上衰减因子来计算v(t),动量则计算历史梯度。我们知道NAG算法优于momentum算法。这里nadam结合了adam算法和NAG算法,为了使用NAG算法,我们需要修改动量表达式m(t)。

首先,回忆动量更新表达式

将第二项代入第三项中有

从上述分析可知,动量考虑了历史动量方向和当前梯度方向。NAG算法通过在梯度计算项中加入历史动量信息来达到一个更精确的计算,因此我们修改公式为:

Dozat提出对NAG进行如下修改:不再进行两次动量计算(一次更新梯度,一次更新参数),而是采用直接更新当前的参数:

注意这里我们没有采用前一时刻的动量m(t-1),而是采用当前的动量m(t)。为了加入NGA算法,我们同样可以替换先前的动量向量为当前的动量向量。首先,我们回忆adam更新规则

将上式1、2带入式3中可得

通过使用动量的偏差校正估计,可得

现在我们加入nesterov 动量,采用当前动量的偏差校正估计替换前一时刻动量的偏差校正估计,可得:

总结

当训练数据特征较为稀疏的时候,采用自适应的优化器通常能获得更好的性能,而且我们采用自适应优化器的默认值即可获得较优的性能。

RMSprop算法是adagrad算法的优化版,它解决了学习率趋近于零的问题。Adadelta算法和RMSprop算法类似,区别在于Adadelta用参数的RMS作为更新规则的分子。最后,Adam则是在RMSprop的基础上加入了偏差校正和动量。综上来看,Adam可能是最佳的选择。

最近很多paper都采用不带动量的SGD算法,辅助一些简单的学习率退火策略。如上所述,SGD算法能够找到极小值,但是比其他优化器花费的时间更多。和其他算法相比,SGD算法更加依赖于初始化参数的设置和退火策略,而且SGD算法更加容易陷入鞍点。所以,如果你想模型更快的收敛或者训练一个深层次、复杂度较高的网络,自适应的优化器应该是首选优化器。

参考文献

Optimization for Deep Learning Highlights in 2017

原文链接:https://www.jianshu.com/p/0acd30a23e4e

本文分享自微信公众号 - 人工智能LeadAI(atleadai),作者:lirainbow0

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 讨厌算法的程序员 | 前言

    这个主题是写给自己的,假如你刚好也和我一样讨厌算法,那也是写给你的。我的主要参考书目是《算法导论》第3版中文版,自己先琢磨明白一个算法,然后再按我的理解写出来。...

    用户1332428
  • 机器学习算法集锦

    摘要: 机器学习 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研...

    用户1332428
  • 讨厌算法的程序员 | 第三章 算法分析基础

    时间资源 上一篇,我们知道了如何用循环不变式来证明 算法的正确性,本篇来看另一个重要方面:算法分析。分析算法的目的,是预测算法所需要的资源。资源不仅是指内存、C...

    用户1332428
  • MLK | 机器学习常见算法优缺点了解一下

    2、使用基于决策树的combination算法,如bagging算法,randomforest算法,可以解决过拟合的问题。

    Sam Gor
  • 【Python环境】数据挖掘有哪些工作流程?

    数据挖掘工作流程: 一、收集数据 收集数据一般是补充外部数据,包括采用爬虫和接口,获取,补充目前数据不足部分。Python scrapy,requests是很好...

    陆勤_数据人网
  • 一图全解10个影响人类社会的算法

    总之,随着我们在越来越多的事情上依赖算法,假如没有算法,社会就不能工作。因此,了解算法是什么,算法能做什么变得十分重要。

    华章科技
  • 2017,人们视算法为洪水猛兽;算法说:我不想背锅

    穆罕默德·本·穆萨·阿尔·花剌子模是公元九世纪的一位波斯学者。在阿尔·花剌子模逝世的数个世纪之后,他的作品引领欧洲进入小数和代数领域,为如今这个以技术为核心的年...

    企鹅号小编
  • Hacker News热议:封装包那么多,程序员还用学习算法吗?

    如果你是几十年前的程序员,那你一定精通于算法,并经常需要自己编写算法。但在今天,算法已经变成了一种「商品」,从业者都在使用现成的软件包和购买的算法。甚至有人提出...

    机器之心
  • 如何实现机器学习算法

    在代码中实现一个机器学习的算法能够使你更加了解该算法以及其工作机理。

    CJ
  • 14种机器学习常见算法分类汇总!

    机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里总结一下常见的机器学习算法,以供您在工作和学习中参考。 机...

    CDA数据分析师

扫码关注云+社区

领取腾讯云代金券