卷积神经网络的经典结构（一）

用户1386409

发布于 2018-07-26 10:18:49

1.1K0

发布于 2018-07-26 10:18:49

文章被收录于专栏：PaddlePaddle

正文部分系《解析卷积神经网络——深度学习实践手册》基础理论篇部分，本次将详细介绍卷积神经网络中经典结构，小结部分将前述的基础理论篇的讲解链接附上，方便大家进行参考。

感受野

原指听觉、视觉等神经系统中一些神经元的特性，即神经元只接受其所支配的刺激区域内的信号。在视觉神经系统中，视觉皮层中神经细胞的输出依赖于视网膜上的光感受器。当光感受器受刺激兴奋时，会将神经冲动信号传导至视觉皮层。不过需指出并不是所有神经皮层中的神经元都会接受这些信号。正是由于感受野等功能结构在猫的视觉中枢中的发现，催生了福岛邦彦的带卷积和子采样操作的多层神经网络。

现代卷积神经网络中的感受野

先以单层卷积操作为例，如图是一个7 × 7，步长为1的卷积操作，对后层的每一个输出神经元（如紫色区域）来说，它的前层感受野即为黄色区域，可以发现这与神经系统的感受野定义大同小异。不过，由于现代卷积神经网络拥有多层甚至超多层卷积操作，随着网络深度的加深，后层神经元在第一层输入层的感受野会随之增大。如图所示为3×3，步长为1的卷积操作，同单层卷积操作一样，相邻两层中后层神经元在前层的感受野仅为3 × 3，但随着卷积操作的叠加，第L + 3 层的神经元在第L 层的感受野可扩增至7 × 7。

也就是说，小卷积核（如3×3）通过多层叠加可取得与大卷积核（如7×7）同等规模的感受野，此外采用小卷积核可带来其余两个优势：第一，因小卷积核需多层叠加，加深了网络深度进而增强了网络容量和复杂度；第二，增强网络容量的同时减少了参数个数。若假设上述示例中卷积核对应的输入输出特征张量的深度均为C，则7 × 7 卷积核对应参数有C ×(7×7×C) = 49C2 个。而三层3×3卷积核堆叠只需三倍单层3 × 3 卷积核个数的参数，即3 × [C × (3 × 3 × C)] = 27C2，远小于7 × 7卷积核的参数个数。

此外，需指出的是，目前有不少研究工作为提升模型预测能力通过改造现有卷积操作试图扩大原有卷积核在前层的感受野大小，或使原始感受野不再是矩形区域而是更自由可变的形状，感兴趣的读者可参考“扩张卷积操作”和“可变卷积网络”。

分布式表示

在深度学习中，深度卷积神经网络呈现“分布式表示”的特性。神经网络中的“分布式表示” 指“语义概念”到神经元是一个多对多映射，直观来讲，即每个语义概念由许多分布在不同神经元中被激活的模式表示；而每个神经元又可以参与到许多不同语义概念的表示中去。

举个例子，如图所示，将一些物体为中心的图像送入在ImageNet数据集上预训练的卷积网络，若输入图像分辨率为224 × 224，则最后一层汇合层可得7 × 7 × 512 大小的响应张量，其中“512”对应了最后一层卷积核的个数，512个卷积核对应了512 个不同的卷积结果（512 个特征图或称“通道”）。可视化时，对于“鸟”或“狗”这组图像对，我们分别从512 张7 × 7 的特征图中随机选取相同的4张，并将特征图与对应原图叠加，即可得到有高亮部分的可视化结果。从图中可明显发现并证实神经网络中的分布式表示特性。

以鸟类这组图像为例，对上下两张“鸟”的图像，即使是同一卷积核（第108个卷积核）但在不同原图中响应的区域可谓大相径庭：对上图，其响应在鸟爪部位；对下图，其响应却在三个角落即背景区域。关于第三个随机选取的特征图（对应第375个卷积核），对上图其响应位于头部区域，对下图则响应在躯干部位。更有甚者，同一卷积核（第284个卷积核）对下图响应在躯干，而对上图却毫无响应。这也就证实了：对于某个模式，如鸟的躯干，会有不同卷积核（其实就是神经元）产生响应；同时对于某个卷积核（神经元），会在不同模式上产生响应，如躯干和头部。另外，需指出的是，除了分布式表示特性，还可从图中发现神经网络响应的区域多呈现“稀疏”特性，即响应区域集中且占原图比例较小。

深度特征的层次性

卷积操作可获取图像区域不同类型特征，而汇合等操作可对这些特征进行融合和抽象，随着若干卷积、汇合等操作的堆叠，各层得到的深度特征逐渐从泛化特征（如边缘、纹理等）过度到高层语义表示（躯干、头部等模式）。

2014 年，Zeiler 和 Fergus 曾利用反卷积技术对卷积神经网络特征进行可视化，洞察了卷积网络的诸多特性，其中之一即层次性。可以发现，浅层卷积核学到的是基本模式，如第一层中的边缘、方向和第二层的纹理等特征表示。随着网络的加深，较深层例如从第三层除了一些泛化模式外，也开始出现了一些高层语义模式，如“车轮”、“文字”和“人脸”形状的模式。直到第五层，更具有分辨能力的模式被卷积网络所捕获——以上的这些观察就是深度网络中特征的层次性。值得一提的是，目前深度特征的层次性已成为深度学习领域的一个共识，也正是由于Zeiler 和Fergus的贡献，该工作被授予欧洲计算机视觉大会ECCV2014最佳论文提名奖，短短几年间引用已逾1700次。另外，得益于卷积网络特征的层次特性使得不同层特征可信息互补，因此对单个网络模型而言“多层特征融合”往往是一种很直接且有效的网络集成技术，对于提高网络精度通常有较好表现。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-05-03，如有侵权请联系 cloudcommunity@tencent.com 删除

卷积神经网络