首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >卷积神经网络的经典结构(二)

卷积神经网络的经典结构(二)

作者头像
用户1386409
发布2018-07-26 10:03:24
7830
发布2018-07-26 10:03:24
举报
文章被收录于专栏:PaddlePaddlePaddlePaddle

正文部分系《解析卷积神经网络——深度学习实践手册》基础理论篇部分,本次将详细介绍卷积神经网络中经典网络模型案例分析,包括Alex-Net、VGG-Nets、Network-In-Network、残差网络模型,更多详细内容以及注释可阅读书籍获取~

1

Alex-Net 网络模型

•历史由来

Alex-Net由加拿大多伦多大学的Alex Krizhevsky, Hya Sutskever (G. E.Hinton的两位博士生)和Geoffrey E. Hinton提出,网络名“Alex-Net”即取自第一作者。关于Alex-Net还有一则八卦:由于Alex-Net划时代的意义,开启了深度学习在工业界的应用,2015年Alex和工lya两位作者连同“半个”Hinton被Google重金(据传高达3500万美金)收买。

•网络结构

Alex-Net的网络结构共含五层卷积层和三层全连接层。Alex-Net的上下两支是为方便同时使用两片GPU并行训练,不过在第三层卷积和全连接层处上下两支信息可交互。由于两支网络完全一致,在此仅对其中一支进行分析。对比前文提到的LeNet可以发现,单在网络结构或基本操作模块方面,Alex-Net的改进非常微小,构建网络的基本思路大致一样,仅在网络深度、复杂度上有较大优势。

•显著优势

1. Alex-Net首次将卷积神经网络应用于计算机视觉领域的海量图像数据集ImageNet,该数据集共计1000类图像,图像总数约128多万张),揭示了卷积神经网络拥有强大的学习能力和表示能力。另一方面,海量数据同时也使卷积神经网络免于过拟合。自此便引发了深度学习,特别是卷积神经网络在计算机视觉中“井喷”式的研究。

2.利用GPU实现网络训练。在上一轮神经网络研究热潮中,由于计算资源发展受限,研究者无法借助更加高效的计算手段(如GPU ),这也较大程度阻碍了当时神经网络的研究进程。在Alex-Net中,研究者借助GPU从而将原本需数周甚至数月的网络训练过程大大缩短至五到六天。在揭示卷积神经网络强大能力的同时,无疑也大大缩短了深度网络和大型网络模型开发研究的周期与时间成本。缩短了迭代周期。

3.一此训练技巧的引人使“不可为”变“可为”,甚至是“大有可为”。如 ReLU激活函数、局部响应规范化操作、为防止过拟合而采取的数据增广和随机失活等,这此训练技巧不仅保证了模型性能,更重要的是为后续深度卷积神经网络的构建提供了范本。实际上,此后的卷积神经网络大体都是遵循这一网络构建的基本思路。

2

VGG-Nets网络模型

•历史由来

VGG-Nets X74}由英国牛津大学著名研究组VGG (Visual Geometry Group)提出,是2014年ImageNet竞赛定位任务第一名和分类任务第二名做法中的基础网络。由于VGG-Nets具备良好的泛化性能,其在

ImageNet数据集上的预训练模型(pre-trained model)被广泛应用于除最常用的特征抽取外的诸多问题:如物体候选生成、细粒度图像定位与检索、图像协同定位等。

•网络结构

以VGG-Nets中的代表VGG-16为例,可以发现,相比Alex-Net , VGG-Nets中普遍使用了小卷积核以及第11.1.2节提到的“保持输人大小”等技巧,为的是在增加网络深度(即网络复杂度)时确保各层输人大小随深度增加而不极具减小。同时,网络卷积层的通道数也是从3—64—128—256—512逐渐增加。

3

Network-In-Network网络模型

•结构

Network-In-Network (NIN) 是由新加坡国立大学LU实验室提出的异于传统卷积神经网络的一类经典网络模型,它与其他卷积神经网络的最大差异是用多层感知机(多层全连接层和非线性函数的组合)替代了先前卷积网络中简单的线性卷积层。线性卷积层的复杂度有限,利用线性卷积进行层间映射也只能将上层特征或输人“简单”的线性组合形成下层特征。

•重大贡献

NIN采用了复杂度更高的多层感知机作为层间映射形式,一方面提供了网络层间映射的一种新可能;另一方面增加了网络卷积层的非线性能力,使得上层特征可有更多复杂性与可能性的映射到下层,这样的想法也被后期出现的残差网络、Inception 等网络模型所借鉴。

同时,NIN网络模型的另一个重大突破是摒弃了全连接层作为分类层的传统,转而改用全局汇合操作。NIN最后一层共C张特征图对应分类任务的C个类别。全局汇合操作分别作用于每张特征图,最后以汇合结果映射到样本真实标记。可以发现,在这样的标记映射关系下,C张特征图上的响应将很自然的分别对应到C个不同的样本类别,这也是相对先前卷积网络来讲,NIN在模型可解释性上的一个优势。

上图为NIN网络模型整体结构。此例中的NIN堆叠了三个多层感知机卷积层模块和一个全局汇合操作层作为分类层。

4

残差网络模型

•优势

由于残差网络很好的解决了网络深度带来的训练困难,它的网络性能(完成任务的准确度和精度)远超传统网络模型,曾在ILSVRC2015和LOCO 2015竞赛的检测、定位和分割任务中纷纷斩获第一,同时发表残差网络的论文也获得了计算机视觉与模式识别领域国际顶级会议CVPR 2016的最佳论文奖。残差网络模型的出现不仅备受学界业界瞩目,同时也拓宽了卷积神经网络研究的道路。下图为20层和56层的常规网络在C工FAR-10数据集上的训练错误率(左图)和测试错误率(右图)

•深度残差网络

其实,He等人提出的深度残差网络与高速公路网络的出发点极其相似,甚至残差网络可以看作是高速公路网络的一种特殊情况。在高速公路网络中的携带门和变换门都为恒等映射时,公式可表示为:

对上式做简单的变形,可得:

就是说,网络需要学习的函数F实际上是第一个公式右端的残差项y-x,称为“残差函数”。如图所示,残差学习模块有两个分支,其一是左侧的残差函数,其二是右侧的对输人的恒等映射。这两个分支经过一个简单整合(对应元素的相加)后,再经过一个非线性的变换ReLU激活函数,从而形成整个残差学习模块。由多个残差模块堆叠而成的网络结构称作“残差网络”。

下图展示了两种不同形式的残差模块。左图为刚才提到的常规残差模块。由两个3x3卷积堆叠而成,但是随着网络深度的进一步增加,这种残差函数在实践中并不是十分有效。右图所示为“瓶颈残差模块”,依次由3个1x1, 3x3和1x1的卷积层构成,这里1x1卷积能够起降维或者升维的作用,从而令3x3的卷积可以在相对较低维度的输入上进行,以达到提高计算效率的目的。在非常深的网络中,“瓶颈残差模块”可大量减少计算代价。

•模型优势

由于残差网络很好的解决了网络深度带来的训练困难,它的网络性能(完成任务的准确度和精度)远超传统网络模型,曾在ILSVRC2015和LOCO 2015竞赛的检测、定位和分割任务中纷纷斩获第一,同时发表残差网络的论文也获得了计算机视觉与模式识别领域国际顶级会议CVPR 2016的最佳论文奖。残差网络模型的出现不仅备受学界业界瞩目,同时也拓宽了卷积神经网络研究的道路。

和“高速公路”网络相比,残差网络与其的不同点在于残差模块中的近路连接可直接通过简单的恒等映射完成,而不需要复杂的携带门和变换门去实现。因此,在残差函数输人输出维度一致的情况下,残差网络不需要引人额外的参数和计算的负担。与高速公路网络相同的是,通过这种近路连接的方式,即使面对特别深层的网络,也可以通过反向传播端到端的学习,使用简单的随机梯度下降的方法就可以训练。这主要受益于近路连接使梯度信息可以在多个神经网络层之间有效传播。

此外,将残差网络与传统的VGG网络模型对比可以发现,若无近路连接,残差网络实际上就是更深的VGG网络,只不过残差网络以全局平均汇合层替代了VGG网络结构中的全连接层,一方面使得参数大大减少,另一方面减少了过拟合风险。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PaddlePaddle 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档