学习率 (learning rate),控制 模型的 学习进度 :
lr 即 stride (步长) ,即反向传播算法中的 ηη\eta :
ωn←ωn−η∂L∂ωnωn←ωn−η∂L∂ωn\omega^{n} \leftarrow \omega^{n} - \eta \frac{\partial L}{\partial \omega^{n}}
学习率 大 | 学习率 小 | |
---|---|---|
学习速度 | 快 | 慢 |
使用时间点 | 刚开始训练时 | 一定轮数过后 |
副作用 | 1.易损失值爆炸;2.易振荡。 | 1.易过拟合;2.收敛速度慢。 |
在训练过程中,一般根据训练轮数设置动态变化的学习率。
Note: 如果是 迁移学习 ,由于模型已在原始数据上收敛,此时应设置较小学习率 (≤10−4≤10−4\leq 10^{-4}) 在新数据上进行 微调 。
轮数减缓 | 指数减缓 | 分数减缓 | |
---|---|---|---|
英文名 | step decay | exponential decay | 1/t1/t1/t decay |
方法 | 每N轮学习率减半 | 学习率按训练轮数增长指数插值递减 | lrt=lr0/(1+kt)lrt=lr0/(1+kt)lr_{t} = lr_{0} / (1+kt) ,kkk 控制减缓幅度,ttt 为训练轮数 |
理想情况下 曲线 应该是 滑梯式下降 [绿线]
:
[红线]
:
Solution:初始 学习率过大 导致 振荡,应减小学习率,并 从头 开始训练 。[紫线]
:
Solution:后期 学习率过大 导致 无法拟合,应减小学习率,并 重新训练 后几轮 。[黄线]
:
Solution:初始 学习率过小 导致 收敛慢,应增大学习率,并 从头 开始训练 。[1] 解析卷积神经网络—深度学习实践手册 [2] 调整学习速率以优化神经网络训练 [3] 如何找到最优学习率