专栏首页Petrichor的专栏深度学习: 学习率 (learning rate)

深度学习: 学习率 (learning rate)

Introduction

学习率 (learning rate),控制 模型的 学习进度

lrstride (步长) ,即反向传播算法中的 ηη\eta :

ωn←ωn−η∂L∂ωnωn←ωn−η∂L∂ωn\omega^{n} \leftarrow \omega^{n} - \eta \frac{\partial L}{\partial \omega^{n}}

学习率大小

学习率 大

学习率 小

学习速度

使用时间点

刚开始训练时

一定轮数过后

副作用

1.易损失值爆炸;2.易振荡。

1.易过拟合;2.收敛速度慢。

学习率设置

在训练过程中,一般根据训练轮数设置动态变化的学习率。

  • 刚开始训练时:学习率以 0.01 ~ 0.001 为宜。
  • 一定轮数过后:逐渐减缓。
  • 接近训练结束:学习速率的衰减应该在100倍以上。

Note: 如果是 迁移学习 ,由于模型已在原始数据上收敛,此时应设置较小学习率 (≤10−4≤10−4\leq 10^{-4}) 在新数据上进行 微调

学习率减缓机制

轮数减缓

指数减缓

分数减缓

英文名

step decay

exponential decay

1/t1/t1/t decay

方法

每N轮学习率减半

学习率按训练轮数增长指数插值递减

lrt=lr0/(1+kt)lrt=lr0/(1+kt)lr_{t} = lr_{0} / (1+kt) ,kkk 控制减缓幅度,ttt 为训练轮数

把脉 目标函数损失值 曲线

理想情况下 曲线 应该是 滑梯式下降 [绿线]

  1. 曲线 初始时 上扬 [红线]: Solution:初始 学习率过大 导致 振荡,应减小学习率,并 从头 开始训练
  2. 曲线 初始时 强势下降 没多久 归于水平 [紫线]: Solution:后期 学习率过大 导致 无法拟合,应减小学习率,并 重新训练 后几轮
  3. 曲线 全程缓慢 [黄线]: Solution:初始 学习率过小 导致 收敛慢,应增大学习率,并 从头 开始训练

[1] 解析卷积神经网络—深度学习实践手册 [2] 调整学习速率以优化神经网络训练 [3] 如何找到最优学习率

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 深度学习: 如何训练网络

    随机批处理,mini-batch,一种 在模型每轮 (epoch) 训练进行前将训练数据集随机打乱 (shuffle) 的 训练机制。

    JNingWei
  • 深度学习: 迁移学习 (Transfer Learning)

    但是如果 新任务 和旧任务类似,同时 新任务 缺乏足够数据 去从头训练一个新模型,那该怎么办呢?

    JNingWei
  • 深度学习: Regularization (正则化)

    正则化,regularization,也即 约束 。是防止过拟合的诸多手段之一,很常用。

    JNingWei
  • 春节充电系列:李宏毅2017机器学习课程学习笔记31之深度强化学习(deep reinforcement learning)

    【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的ensemble。这一节将主要针对讨论deep reinforcement learn...

    WZEARW
  • 机器学习简介

    标题: 机器学习定义 人工智能、机器学习、深度学习的关系 机器学习的学习类别 数据(特征)的种类 几个空间的概念 机器学习的三要素 深度学习的兴起引领了人工智能...

    企鹅号小编
  • Machine Learning哪家强 强化学习So Strong

    博士毕业于电子科技大学,美国西北大学访问学者,现执教于河南工业大学。中国计算机协会(CCF)会员,CCF YOCSEF郑州2018—2019年度副主席,ACM/...

    用户1682855
  • 【机器学习】目前机器学习最热门的领域有哪些?

    目前机器学习最热门的领域有以下七个: 1.迁移学习Transferlearning 简介:一种学习对另一种学习的影响,它广泛地存在于知识、技能、态度和行为规范的...

    小莹莹
  • [机器学习必知必会]集成学习

    集成学习指先产生一组弱学习器week learner(指泛化性能略优于随机猜测的学习器),随后根据某种策略将这些弱学习器组合起来得到最终预测结果的方法。

    TOMOCAT
  • 微软ALUM:当语言模型遇到对抗训练

    本文把对抗训练用到了预训练和微调两个阶段,对抗训练的方法是针对embedding space,通过最大化对抗损失、最小化模型损失的方式进行对抗,在下游任务上取得...

    NewBeeNLP
  • 从阿尔法狗元(AlphaGo Zero)的诞生看终极算法的可能性

    大数据文摘

扫码关注云+社区

领取腾讯云代金券