深度学习——CNN(2)池化层怎么反向传播?为什么采用小批量梯度下降?学习率设置

前言:CNN的优化方法依旧可以是梯度下降的方法,类似于BP算法中的反向传播,一般采用小批量梯度下降的方法,来更新参数,同时回答CNN遗留下来几个问题

池化层怎么反向传播?

Maxpool 池化层反向传播,除最大值处继承上层梯度外,其他位置置零。

为什么采用小批量梯度下降?

为了同时保证训练过程比较快,和最终训练参数的准确率,

学习率设置

学习率被定义为每次迭代中成本函数中最小化的量。也即下降到成本函数的最小值的 速率是学习率,它是可变的。从梯度下降算法的角度来说,通过选择合适的学习率,可以 使梯度下降法得到更好的性能。 一般常用的学习率有0.00001,0.0001,0.001,0.003,0.01,0.03,0.1,0.3,1,3,10 学习率和损失值的关系如下图:

基于以上情况,学习率的给定可以从多个方面 1.固定 2.均匀分布,给个迭代次数,学习率根据迭代次数更新 3.不均匀分布,刚开始训练网络时学习率一般设置较高,这样loss和 accuracy下降很快,一般前200000次两者下降较快,后面可能就需要我们使用较小的学习 率了。step策略由于过于平均,而loss和accuracy的下降率在整个训练过程中又是一个不平 均的过程,因此有时不是很合适。fixed手工调节起来又很麻烦,这时multistep可能就会派 上用场了。multistep还需要设置一个stepvalue。这个参数和step很相似,step是均匀等间隔 变化,而multistep则是根据 stepvalue值变化。 一般情况下误差的变化情况如下:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

理解SVM的三层境界(一)

前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究...

3367
来自专栏磐创AI技术团队的专栏

使用Keras进行深度学习(二): CNN讲解及实践

前言:现今最主流的处理图像数据的技术当属深度神经网络了,尤其是卷积神经网络CNN尤为出名。本文将通过讲解CNN的介绍以及使用keras搭建CNN常用模型LeNe...

4124
来自专栏人工智能LeadAI

VGG和GoogLeNet inception

01 介绍 googlenet和vggnet这两个模型是在AlexNet后人工神经网络方面研究的又一里程碑,也是许多论文和博客中用来和提出的新方法进行对比的b...

36314
来自专栏ACM算法日常

第九篇:《机器学习之神经网络(实战篇)》

632
来自专栏计算机视觉战队

深度学习近期总结分析

希望想认真阅读的你可以听着这首悦耳的歌O(∩_∩)O 一、背景介绍 普通的深度学习监督算法主要是用来做分类,如图1(1)所示,分类的目标是要识别出图中所示是一只...

3238
来自专栏技术小站

吴恩达深度学习笔记 course4 week4 测验

Face verification requires comparing a new picture against one person’s face, wh...

1224
来自专栏机器学习算法全栈工程师

深度学习以及卷积基础

作者:石文华 编辑:龚 赛 介 绍 ? 深度学习是机器学习的一个分支,是基于数据来学习表示数据的一组算法。下面我们列出最受欢迎的一些深度学习算法。 卷...

3958
来自专栏专知

使用SSD进行目标检测:目标检测第二篇

【导读】近日,CV-Tricks.com发布了一篇文章,使用SSD进行目标检测,SSD是当前最流行的目标检测算法之一。作者从检测的基本概念、滑动窗口检测、减少滑...

4475
来自专栏算法channel

深度学习|卷积神经网络(CNN)介绍(后篇)

01 — 回顾 昨天介绍了CNN的卷积操作,能减少权重参数的个数,卷积操作涉及到三个超参数: 深度(Depth) 步长(Stride) 零填充(Zero-pad...

4495
来自专栏ATYUN订阅号

【学术】为回归问题选择最佳机器学习算法

AiTechYun 编辑:xiaoshan 任何类型的机器学习(ML)问题,都有许多不同的算法可供选择。在机器学习中,有一种叫做“无免费午餐(No Free L...

2616

扫码关注云+社区