深度学习——CNN(2)池化层怎么反向传播?为什么采用小批量梯度下降?学习率设置

前言:CNN的优化方法依旧可以是梯度下降的方法,类似于BP算法中的反向传播,一般采用小批量梯度下降的方法,来更新参数,同时回答CNN遗留下来几个问题

池化层怎么反向传播?

Maxpool 池化层反向传播,除最大值处继承上层梯度外,其他位置置零。

为什么采用小批量梯度下降?

为了同时保证训练过程比较快,和最终训练参数的准确率,

学习率设置

学习率被定义为每次迭代中成本函数中最小化的量。也即下降到成本函数的最小值的 速率是学习率,它是可变的。从梯度下降算法的角度来说,通过选择合适的学习率,可以 使梯度下降法得到更好的性能。 一般常用的学习率有0.00001,0.0001,0.001,0.003,0.01,0.03,0.1,0.3,1,3,10 学习率和损失值的关系如下图:

基于以上情况,学习率的给定可以从多个方面 1.固定 2.均匀分布,给个迭代次数,学习率根据迭代次数更新 3.不均匀分布,刚开始训练网络时学习率一般设置较高,这样loss和 accuracy下降很快,一般前200000次两者下降较快,后面可能就需要我们使用较小的学习 率了。step策略由于过于平均,而loss和accuracy的下降率在整个训练过程中又是一个不平 均的过程,因此有时不是很合适。fixed手工调节起来又很麻烦,这时multistep可能就会派 上用场了。multistep还需要设置一个stepvalue。这个参数和step很相似,step是均匀等间隔 变化,而multistep则是根据 stepvalue值变化。 一般情况下误差的变化情况如下:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏计算机视觉战队

DeepLab v2及调试过程

今天我们开始说说语义分割第二个系列,DeepLab V2。说这个之前,我们先说说FCN的一些简单知识。 图像语义分割,简单而言就是给定一张图片,对图片上的每一个...

4306
来自专栏开心的学习之路

神经网络体系搭建(三)——卷积神经网络

本篇是神经网络体系搭建的第三篇,解决体系搭建的卷积神经网络相关问题,详见神经网络体系搭建(序) 卷积神经网络(CNN) ? CNN是什么 卷积神经网络是一种空间...

3708
来自专栏机器学习算法与理论

逻辑回归与梯度下降详解

逻辑回归 Sigmoid函数: ? Sigmoid函数 梯度: ? 梯度的表达式 这个梯度是指:沿着x方向移动 ? 个单位,沿着y方向移动 ? 个...

2809
来自专栏PaddlePaddle

卷积层

深度学习基础理论-CNN篇 卷积层 卷积层(convolution layer)是卷积神经网络中的基础操作,甚至在网络最后起分类作用的全连接层在工程实现时也...

3909
来自专栏ATYUN订阅号

【学术】为回归问题选择最佳机器学习算法

AiTechYun 编辑:xiaoshan 任何类型的机器学习(ML)问题,都有许多不同的算法可供选择。在机器学习中,有一种叫做“无免费午餐(No Free L...

2656
来自专栏计算机视觉战队

经典的全连接前馈神经网络与BP

神经网络分类: ? 机器学习的四要素 ? 讨论:线性模型与广义线性模型 对于部分数据来说,其本身就是稀疏,可以通过线性模型直接优化求解,但是实际生活中大多...

4345
来自专栏梦里茶室

读论文系列:Object Detection ICCV2015 Fast RCNN

Fast RCNN是对RCNN的性能优化版本,在VGG16上,Fast R-CNN训练速度是RCNN的9倍, 测试速度是RCNN213倍;训练速度是SPP-ne...

3606
来自专栏ACM算法日常

第九篇:《机器学习之神经网络(实战篇)》

772
来自专栏xingoo, 一个梦想做发明家的程序员

吴恩达机器学习笔记 —— 18 大规模机器学习

有的时候数据量会影响算法的结果,如果样本数据量很大,使用梯度下降优化参数时,一次调整参数需要计算全量的样本,非常耗时。

841
来自专栏计算机视觉战队

深度学习近期总结分析

希望想认真阅读的你可以听着这首悦耳的歌O(∩_∩)O 一、背景介绍 普通的深度学习监督算法主要是用来做分类,如图1(1)所示,分类的目标是要识别出图中所示是一只...

3418

扫码关注云+社区