前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习三人行(第6期)----深度学习之学习率的命运

深度学习三人行(第6期)----深度学习之学习率的命运

作者头像
智能算法
发布2018-12-07 10:41:25
5600
发布2018-12-07 10:41:25
举报
文章被收录于专栏:智能算法

上一期,我们一起学习了深度学习中的优化器的进化,

深度学习三人行(第5期)----深度学习中的优化器选择

今天我们一起看下学习率有着一个什么样的命运,我们多多交流,共同进步。本期主要内容如下:

  • 学习率的影响
  • 学习率的优化策略
  • 学习率优化调节的实现
  • 命运的安排

一. 学习率的影响

在深度学习中,寻找一个合适的学习率是比较困难的。在训练深度网络的过程中,如果学习率设置的过高,training学习曲线将会比较发散;如果学习率设置的过低,虽然训练最终会收敛到收敛到最优值,但是将会消耗很长的时间;如果学习率设置的稍微高,但是没那么高的话,training初期的将会下降很快,但是可能会在最优值附近一直震荡(除非用一个自适应学习率的优化器,但是仍需要花时间稳定到最优点);如果计算资源受限的话,可能会不得不中断学习,而得到一个次优点。如下图:

有时候,我们可以通过分别用几个不同的学习率来training几个epochs,通过比较这几个不同学习率的学习曲线来找到一个相对好一点的学习率。理想的学习率将会使学习过程很快,并很快收敛一个好的解。那么有哪些好的策略来优化学习率呢?


二. 学习率的优化策略

通常,如果我们一开始用一个高的学习率,而当学习进度没那么快的时候,降低学习率的话,会比用一个固定的学习率更快的得到一个最优解。在学习过程中调整学习率有以下几种常见的调整策略:

1. 阶梯调节

在阶梯调节中,比方说可以在一开始设置一个学习率0.1,然后在50个epochs后降到0.01,到100个epochs后将到0.001等。

2. 性能调节

性能调节是根据网络在验证集上的表现性能进行调节,在训练的过程中,不断的根据性能对学习率乘以一个衰减因子,来达到降低学习率的目的。

3. 指数调节

指数调节是将学习率的衰减设计成迭代次数的函数,如下:

这样就能够根据迭代次数的增加而逐步的衰减学习率,但是需要去调整初始学习率η0和超参数r。

4. 幂指调节

幂指调节跟指数调节有些类似,不同的是幂指调节将学习率衰减函数设计成幂指函数,如下:

超参数c一般设置为1,幂指调节衰减的速度要比指数调节衰减的慢。

Andrew Senior在2013年的时候,用Momentum Optimization去优化一个语音识别的网络中对常见的调节学习率的方法进行了对比,得出一个结论:性能调节和指数调节都能够表现的非常好,但是由于指数调节比较好实施,并且收敛稍微快一点,所以倾向于指数调节。


三. 学习率优化调节的实现

在TensorFlow中学习率调节还是比较好实现的,如下是一个指数调节衰减的实现代码:

代码语言:javascript
复制
1initial_learning_rate = 0.1
2decay_steps = 10000
3decay_rate = 1/10
4global_step = tf.Variable(0, trainable=False)
5learning_rate = tf.train.exponential_decay(initial_learning_rate, global_step,
6decay_steps, decay_rate)
7optimizer = tf.train.MomentumOptimizer(learning_rate, momentum=0.9)
8training_op = optimizer.minimize(loss, global_step=global_step)

如上,在设置完超参数之后,创建一个nontrainable的全局变量(初始化为0)用来记录当前的迭代次数。然后根据超参数用exponential_decay定义一个指数衰减学习率。接下来创建一个动力优化的优化器,最后让优化器去最小化损失函数即可,非常简单。然而……


四. 命运的安排

在我们上节讲AdaGrad, RMSProp和Adam优化器出现之前,上面学到的调节学习率的方法还是很有用的,由于AdaGrad, RMSProp和Adam这三种优化器能够天生的自带调节学习率,而且效果还非常的不错,所以一般在用这三种优化器的时候,往往不再去人为调节学习率,也许这就是命运,这就是安排!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能算法 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档