卷积神经网络(CNN)概念解释

OpenCV学堂

发布于 2018-04-04 11:20:54

2.2K0

发布于 2018-04-04 11:20:54

卷积神经网络(CNN)概念解释

传统对象识别-模式识别

传统的模式识别神经网络(NN)算法基于梯度下降，基于输入的大量样本特征数据学习有能力识别与分类不同的目标样本。这些传统模式识别方法包括KNN、SVM、NN等方法、他们有一个无法避免的问题，就是必须手工设计算法实现从输入图像到提取特征，而在特征提取过程中要考虑各种不变性问题、最常见的需要考虑旋转不变性、光照不变性、尺度不变性、通过计算图像梯度与角度来实现旋转不变性、通过归一化来避免光照影响，构建尺度金字塔实现尺度不变性，这其中SIFT与SURF是其这类特征的典型代表、此外还可以基于轮廓HOG特征、LBP特征等，然后把特征数据作为输入，选择适合的机器学习方法如KNN、SVM等方法实现分类或者识别。这些方法的一个最大的弊端就是特征提取设计过程完全依赖于人、人的因素太多，没有发挥出机器主动学习、提取特征的能力。好处就是人可以完全控制特征提取的每个细节、每个特征数据。图示如下：

卷积神经网络(CNN)

以卷积神经网络(CNN)为代表的深度学习方法实现对象识别与分类，则是把特征提取完全交给机器、整个特征提取的过程无需手工设计、全部由机器自动完成。通过不同filter的卷积实现特征提取，这样就可以对畸变与光照保持一定程度的不变性、通过最大池化层采样实现尺度不变性，在保持传统特征数据三个不变性的同时，在特征提取方法上尽量减少人工设计细节，通过监督学习把计算机的计算能力发挥出来，主动寻找合适的特征数据。完成了特征提取算法有传统的白盒机制到以机器为主导的黑盒机制，实现了识别分类结果的最优化求解。最早的卷积神经网络模型出现在1998年，主要是用来实现OCR(英文字母识别)，它的名称叫做LeNet-5网络，其结构如下：

包含以下各层：

输入层(Input Layer)表示输入数据（图像）
卷积层(Convolution Layer)通过5x5的卷积核实现特征提取，然后通过2x大小最大池化，降采样。上图有两个卷积层
全连接层(Full connection Layer)，传统神经网络的多层感知器 (MLP)。上图有两个全连接层
输出层(Output Layer)

卷积层详解：

首先要理解一下图像卷积的概念，卷积是一种数学操作，简单可以解释如下图：

而对与卷积神经网络的卷积层来说，我们一般定义输入图像是wxh像素宽高大小，定义K个mxn卷积核，对每个卷积核完成输入图像与之卷积得到生成k(w-m+1)(h-n+1)卷积图像，降采样之后则得到DMN (M=(w-m+1)/2, N=(h-n+1)/2), 其中D表示深度即feature map的个数，输出第一层卷积池化之后，继续进行卷积操作的时候必须考虑图像的深度，在深度方向完成三维卷积，图示如下：