深度学习三人行(第6期)----深度学习之学习率的命运

上一期,我们一起学习了深度学习中的优化器的进化,

深度学习三人行(第5期)----深度学习中的优化器选择

今天我们一起看下学习率有着一个什么样的命运,我们多多交流,共同进步。本期主要内容如下:

  • 学习率的影响
  • 学习率的优化策略
  • 学习率优化调节的实现
  • 命运的安排

一. 学习率的影响

在深度学习中,寻找一个合适的学习率是比较困难的。在训练深度网络的过程中,如果学习率设置的过高,training学习曲线将会比较发散;如果学习率设置的过低,虽然训练最终会收敛到收敛到最优值,但是将会消耗很长的时间;如果学习率设置的稍微高,但是没那么高的话,training初期的将会下降很快,但是可能会在最优值附近一直震荡(除非用一个自适应学习率的优化器,但是仍需要花时间稳定到最优点);如果计算资源受限的话,可能会不得不中断学习,而得到一个次优点。如下图:

有时候,我们可以通过分别用几个不同的学习率来training几个epochs,通过比较这几个不同学习率的学习曲线来找到一个相对好一点的学习率。理想的学习率将会使学习过程很快,并很快收敛一个好的解。那么有哪些好的策略来优化学习率呢?


二. 学习率的优化策略

通常,如果我们一开始用一个高的学习率,而当学习进度没那么快的时候,降低学习率的话,会比用一个固定的学习率更快的得到一个最优解。在学习过程中调整学习率有以下几种常见的调整策略:

1. 阶梯调节

在阶梯调节中,比方说可以在一开始设置一个学习率0.1,然后在50个epochs后降到0.01,到100个epochs后将到0.001等。

2. 性能调节

性能调节是根据网络在验证集上的表现性能进行调节,在训练的过程中,不断的根据性能对学习率乘以一个衰减因子,来达到降低学习率的目的。

3. 指数调节

指数调节是将学习率的衰减设计成迭代次数的函数,如下:

这样就能够根据迭代次数的增加而逐步的衰减学习率,但是需要去调整初始学习率η0和超参数r。

4. 幂指调节

幂指调节跟指数调节有些类似,不同的是幂指调节将学习率衰减函数设计成幂指函数,如下:

超参数c一般设置为1,幂指调节衰减的速度要比指数调节衰减的慢。

Andrew Senior在2013年的时候,用Momentum Optimization去优化一个语音识别的网络中对常见的调节学习率的方法进行了对比,得出一个结论:性能调节和指数调节都能够表现的非常好,但是由于指数调节比较好实施,并且收敛稍微快一点,所以倾向于指数调节。


三. 学习率优化调节的实现

在TensorFlow中学习率调节还是比较好实现的,如下是一个指数调节衰减的实现代码:

1initial_learning_rate = 0.1
2decay_steps = 10000
3decay_rate = 1/10
4global_step = tf.Variable(0, trainable=False)
5learning_rate = tf.train.exponential_decay(initial_learning_rate, global_step,
6decay_steps, decay_rate)
7optimizer = tf.train.MomentumOptimizer(learning_rate, momentum=0.9)
8training_op = optimizer.minimize(loss, global_step=global_step)

如上,在设置完超参数之后,创建一个nontrainable的全局变量(初始化为0)用来记录当前的迭代次数。然后根据超参数用exponential_decay定义一个指数衰减学习率。接下来创建一个动力优化的优化器,最后让优化器去最小化损失函数即可,非常简单。然而……


四. 命运的安排

在我们上节讲AdaGrad, RMSProp和Adam优化器出现之前,上面学到的调节学习率的方法还是很有用的,由于AdaGrad, RMSProp和Adam这三种优化器能够天生的自带调节学习率,而且效果还非常的不错,所以一般在用这三种优化器的时候,往往不再去人为调节学习率,也许这就是命运,这就是安排!

原文发布于微信公众号 - 智能算法(AI_Algorithm)

原文发表时间:2018-11-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 价值传播网络,在更复杂的动态环境中进行规划的方法

规划是许多领域人工智能体的关键组成部分。然而,经典规划算法的局限性在于,对于每种可能的规划实例,人们都需要知道如何为其搜索最优(或至少合理的)方案。环境动态和状...

8410
来自专栏企鹅号快讯

通过人工神经网络探讨信号完整性的未来

想象一下,如果电脑或机器人可以完成所有枯燥乏味的工作,我们就能享受生活、做更多有意义的事(如图1所示)。这些绝对是许多学术界、工业界研究人员的愿望。工程师的最终...

25450
来自专栏新智元

谷歌大脑 Bengio:全新 Active Memory 模型提升机器翻译水平(附 NIPS 论文下载)

【新智元导读】Samy Bengio,刚刚创业的 Youshua Bengio的弟弟,昨天在 Arxiv 上发布了他与同事、Google Brain 研究人员 ...

384100
来自专栏算法channel

解读最优化算法之模拟退火

模拟退火算法 ( simulated anneal , SA) 求解最优化问题常用的算法,今天应用 SA 解决一元多次函数最小值的例子解释 SA 算法。

11500
来自专栏PPV课数据科学社区

写给大家看的机器学习书(第二篇)

作者:徐晗曦 来源:https://zhuanlan.zhihu.com/p/25439997 在《写给大家看的机器学习书》的第一篇,我们了解了机器学习的基本...

38770
来自专栏CDA数据分析师

机器学习的5种“兵法"

在研究机器学习中,理论在其整个自上而下方法中试用于哪里呢? 在传统的机器学习教学中,丰富的数学理论知识对于理解机器学习是至关重要的,我的机器学习教学方法通常是教...

19770
来自专栏大数据智能实战

基于seq2seq的中国古诗词自动生成技术

文本生成技术是深度学习赋予自然语言处理一项全新的技术,而刚好网上有这方面诸多的例子,因此趁着有空实现一下中国古诗的自动生成技术,还是挺好玩的。 具体步骤主要...

503100
来自专栏大数据文摘

机器学习的5种“兵法”;

25350
来自专栏奇点大数据

谷歌大脑AutoML新进展:用进化算法发现神经网络架构

作者|谷歌大脑高级工程师 Esteban Real 编译|Debra 从 5 亿年前非常简单的蠕虫大脑到各种现代化结构,大脑经历了漫长的进化过程。如今,人类的大...

39150
来自专栏机器之心

业界 | 进化算法 + AutoML,谷歌提出新型神经网络架构搜索方法

选自Google Research Blog 作者:Esteban Real 机器之心编译 参与:刘晓坤、路雪、李亚洲 通过在 AutoML 中结合进化算法执行...

37060

扫码关注云+社区

领取腾讯云代金券