吴恩达深度学习课程笔记之卷积神经网络基本操作详解

卷积层

CNN中卷积层的作用:

CNN中的卷积层,在很多网络结构中会用conv来表示,也就是convolution的缩写。

卷积层在CNN中扮演着很重要的角色——特征的抽象和提取,这也是CNN区别于传统的ANN或SVM的重要不同。

对于图片而言,图片是一个二维度的数据,我们怎样才能通过学习图片正确的模式来对于一张图片有正确的对于图片分类呢?这个时候,有人就提出了一个观点,我们可以这样,对于所有的像素,全部都连接上一个权值,我们也分很多层,然后最后进行分类,这样也可以,但是对于一张图片来说,像素点太多,参数太多了。然后就有人提出来,我们只看一部分怎么样,就是对于一张图片来说,我们只看一个小窗口就可以了,对于其他的地方,我们也提供类似的小窗口,我们知道,当我们对图片进行卷积的时候,我们可以对图片进行很多操作,比如说图片整体模糊,或者是边缘的提取,卷积操作对于图片来说可以很好的提取到特征,而且通过BP误差的传播,我们可以根据不同任务,得到对于这个任务最好的一个参数,学习出相对于这个任务的最好的卷积核,之所以权值共享的逻辑是:如果说一个卷积核在图片的一小块儿区域可以得到很好的特征,那么在其他的地方,也可以得到很好的特征。

填充(Padding)

valid:也就是不填充。

same:在图像边缘填充,使得输入和输出大小相同。

不采用padding的后果:

1、边缘信息采样小

2、输出图像变小

而paddding通常可以保证卷积过程中输入和输出的维度是一样的。它还可以使图像边缘附近的帧对输出的贡献和图像中心附近的帧一样。

假设输入的图像大小为:n*n,过滤器大小为f*f,填充的大小为p,步长为s;

那么,输出的大小为:

假设步长stride大小为1,并且没有填充,则输出为:

(n−f+1)∗(n−f+1)

假设步长stride大小为1,并且填充的大小为p,则输出为:

(n+2p−f+1)∗(n+2p−f+1)

根据以上公式可以看出,加入我们没有填充的话,输出的大小会小于输入的大小,然而在实际中,我们往往希望,输出的大小能够与输入的大小相同,于是,我们可以得到下面这个等式:

(n+2p−f+1)∗(n+2p−f+1)=n∗n

解得:

p=(f−1)/2

由以上式子可知,当f为奇数时,填充的大小也随之确定。也许你会问,难道过滤器的大小一定要为奇数吗?理论上,f为偶数也是可以的。但是在实际工程应用中,f一般会取奇数(很多情况下取3),原因如下:

1、若为偶数,则有可能是不对称填充,显然我们不喜欢这样的操作

2、奇数有中心像素点,便于我们定位过滤器的位置

步长(Stride)

假设步长大小为s,并且填充的大小为p,则输出为:

需要注意的是,当结果不为整数时,我们一般采取下取整操作!

池化(Pooling)

池化:卷积层是对图像的一个邻域进行卷积得到图像的邻域特征,池化层就是使用pooling技术将小邻域内的特征点整合得到新的特征。

优点:

1、显著减少参数数量

2、池化单元具有平移不变性

在实际中经常使用的是最大池化。

卷积神经网络减少参数的手段:

1)稀疏连接

一般认为人对外界的认知是从局部到全局的,而图像的空间联系也是局部的像素联系较为紧密,而距离较远的像素相关性则较弱。因而,每个神经元其实没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想,也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的(即这些神经元只响应某些特定区域的刺激)。如下图所示:左图为全连接,右图为稀疏连接。

在上右图中,假如每个神经元只和10×10个像素值相连,那么权值数据为1000000×100个参数,减少为原来的千分之一。而那10×10个像素值对应的10×10个参数,其实就相当于卷积操作。

2)参数共享

但其实这样的话参数仍然过多,那么就启动第二级神器,即权值共享。在上面的局部连接中,每个神经元都对应100个参数,一共1000000个神经元,如果这1000000个神经元的100个参数都是相等的,那么参数数目就变为100了。

怎么理解权值共享呢?我们可以这100个参数(也就是卷积操作)看成是提取特征的方式,该方式与位置无关。这其中隐含的原理则是:图像的一部分的统计特性与其他部分是一样的。这也意味着我们在这一部分学习的特征也能用在另一部分上,所以对于这个图像上的所有位置,我们都能使用同样的学习特征。

更直观一些,当从一个大尺寸图像中随机选取一小块,比如说 8×8 作为样本,并且从这个小块样本中学习到了一些特征,这时我们可以把从这个 8×8 样本中学习到的特征作为探测器,应用到这个图像的任意地方中去。特别是,我们可以用从 8×8 样本中所学习到的特征跟原本的大尺寸图像作卷积,从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。

如下图所示,展示了一个33的卷积核在55的图像上做卷积的过程。每个卷积都是一种特征提取方式,就像一个筛子,将图像中符合条件(激活值越大越符合条件)的部分筛选出来。

参考文献:

1、技术向:一文读懂卷积神经网络CNN(https://www.cnblogs.com/nsnow/p/4562308.html)

2、卷积神经网络工作原理直观的解释?(https://www.zhihu.com/question/39022858/answer/81026163)

本文来自企鹅号 - 全球大搜罗媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏算法channel

3 张PPT理解如何训练 RNN

损失函数选用交叉熵,机器学习的很多算法模型也都会选用交叉熵。显然,损失函数大小不想受训练语料库的单词数影响,因此计算所有训练单词的交叉熵再求平均即可。

13110
来自专栏大数据挖掘DT机器学习

梯度下降法求解逻辑回归

梯度下降法(Gradient Descent)是优化问题中一种常用的手段,一般用于凸函数问题(或者可以转换为凸函数的问题)的求解,而逻辑回归问题就可以转换为一...

47150
来自专栏算法channel

BAT面试题12:机器学习为何要经常对数据做归一化?

一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?维基百科给出的解释:1)归一化后加快了梯度下降...

19620
来自专栏深度学习

神经网络性能调优方案

神经网络性能调优主要方法 (1)数据增广 (2)图像预处理 (3)网络初始化 (4)训练过程中的技巧 (5)激活函数的选择 (6)不同正则化方法 (...

39980
来自专栏老秦求学

[Deep-Learning-with-Python]机器学习基础

二分类、多分类以及回归问题都属于监督学习--目标是学习训练输入和对应标签之间的关系。 监督学习只是机器学习的冰山一角。机器学习主要分为4类:监督学习、非监督学...

11030
来自专栏机器学习算法工程师

【随笔记录】1*1卷积核的作用

之前只是知道1x1的卷积核用在Inception模块中具有降维的作用,并没有认真的思考它是怎么样实现降维的,以及它还有哪些作用。于是查阅了一些资料,并记录了它...

19250
来自专栏深度学习计算机视觉

计算机视觉中的物体检测方法

本文适合刚入门物体检测的人群学习,不涉及公式推理。 目录 *摘要 *相关物体检测数据集介绍 *现有的主流物体检测算法 *物体检测的难点与挑战 *相关术语介绍 *...

30940
来自专栏梦里茶室

Object Detection · RCNN论文解读

转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列...

36870
来自专栏xingoo, 一个梦想做发明家的程序员

吴恩达机器学习笔记 —— 5 多变量线性回归

有时候特征各个维度是不同规模的,比如房间的平米数和房间数,两个数量级相差很大。如果不丛任何处理,可能导致梯度优化时的震荡。

10600
来自专栏大数据挖掘DT机器学习

梯度下降法求解逻辑回归

梯度下降法(Gradient Descent)是优化问题中一种常用的手段,一般用于凸函数问题(或者可以转换为凸函数的问题)的求解,而逻辑回归问题就可以转换为一个...

41190

扫码关注云+社区

领取腾讯云代金券