文章/答案/技术大牛

发布

深度学习教程

共 4 篇文章

深度学习: Nonlinear (非线性)

深度学习: marginal cost (边际成本)

深度学习: 迁移学习 (Transfer Learning)

深度学习: 学习率 (learning rate)

清单首页深度学习教程文章详情

清单「深度学习教程」 04/04

深度学习: 学习率 (learning rate)

JNingWei·阿里巴巴图像算法

Introduction

学习率 (learning rate)，控制模型的 学习进度 ：

lr 即 stride (步长) ，即反向传播算法中的 ηη\eta ：

ωn←ωn−η∂L∂ωnωn←ωn−η∂L∂ωn\omega^{n} \leftarrow \omega^{n} - \eta \frac{\partial L}{\partial \omega^{n}}

学习率大小

	学习率大	学习率小
学习速度	快	慢
使用时间点	刚开始训练时	一定轮数过后
副作用	1.易损失值爆炸；2.易振荡。	1.易过拟合；2.收敛速度慢。

学习率设置

在训练过程中，一般根据训练轮数设置动态变化的学习率。

刚开始训练时：学习率以 0.01 ~ 0.001 为宜。
一定轮数过后：逐渐减缓。
接近训练结束：学习速率的衰减应该在100倍以上。

Note： 如果是 迁移学习 ，由于模型已在原始数据上收敛，此时应设置较小学习率 (≤10−4≤10−4\leq 10^{-4}) 在新数据上进行微调。

学习率减缓机制

	轮数减缓	指数减缓	分数减缓
英文名	step decay	exponential decay	1/t1/t1/t decay
方法	每N轮学习率减半	学习率按训练轮数增长指数插值递减	lrt=lr0/(1+kt)lrt=lr0/(1+kt)lr_{t} = lr_{0} / (1+kt) ，kkk 控制减缓幅度，ttt 为训练轮数

把脉目标函数损失值曲线

理想情况下曲线应该是 滑梯式下降 [绿线]：

曲线 初始时上扬 [红线]： Solution：初始学习率过大导致振荡，应减小学习率，并 从头开始训练 。
曲线 初始时强势下降没多久归于水平 [紫线]： Solution：后期学习率过大导致 无法拟合，应减小学习率，并 重新训练后几轮 。
曲线 全程缓慢 [黄线]： Solution：初始学习率过小导致 收敛慢，应增大学习率，并 从头开始训练 。

[1] 解析卷积神经网络—深度学习实践手册 [2] 调整学习速率以优化神经网络训练 [3] 如何找到最优学习率

深度学习教程

深度学习: 学习率 (learning rate)

Introduction

学习率大小

学习率设置

学习率减缓机制

把脉目标函数损失值曲线

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

深度学习教程

深度学习: 学习率 (learning rate)

Introduction

学习率大小

学习率设置

学习率减缓机制

把脉 目标函数损失值 曲线

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

把脉目标函数损失值曲线