深度学习: 如何训练网络

JNingWei

发布于 2018-09-27 15:19:20

1.4K0

发布于 2018-09-27 15:19:20

文章被收录于专栏：JNing的专栏

Introduction

目的： 快速有效 地拟合。

手段： 随机批处理、学习率、批规范化、模型优化算法、迁移学习。

随机批处理

随机批处理，mini-batch，一种 在模型每轮 (epoch) 训练进行前将训练数据集随机打乱 (shuffle) 的训练机制。

可以防止 被模型猜到 “出样本顺序” 。

作用：防 过拟合 。

合理的学习率

学习率，learning rate，控制模型的 学习进度 。

在训练过程中，根据训练轮数，合理设置动态变化的学习率：

刚开始训练时：学习率以 0.01 ~ 0.001 为宜。
一定轮数过后：逐渐减缓。
接近训练结束：学习速率的衰减应该在100倍以上。

Note： 如果是 迁移学习 ，由于模型已在原始数据上收敛，此时应设置较小学习率 (≤10−4≤10−4\leq 10^{-4}) 在新数据上进行微调。

作用：防止 欠拟合/过拟合/拟合慢 。

具体见深度学习: 学习率 (learning rate)

批规范化

批规范化，batch normalization，即著名的BN操作。对应网络模型中的 BN层 ,一般置于 激活函数之后，池化层之前 。

计算批处理数据的均值和方差，据此对该批数据做 规范化 ，并进行缩放和平移。

作用：

缩小输入空间，从而降低调参难度；
防止梯度爆炸/消失，从而加速网络收敛。

影响：

该质优价廉的设计目前几乎成了CNN标配。

具体见深度学习: Batch Normalization (归一化)

模型优化算法

优化算法类型包括一阶优化法和二阶优化法。

一阶优化法较为常见，包括：随机梯度下降法、基于动量的随机梯度下降法、Nesterov型动量随机下降法、Adagrad法、Adadelta法、RMSProp法、Adam法。

具体见深度学习: 模型优化算法。

迁移学习

在已经预训练好的模型上进行微调。

优势：

高效快捷。

目前，大部分的模型训练都是 迁移学习 ，已经很少有人从头开始新训练一个模型了。

具体见深度学习: 迁移学习 (Transfer Learning) 。

[1] 解析卷积神经网络—深度学习实践手册

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018年02月03日，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度