深度卷积神经网络CNN中shortcut的使用

导语

shortcut(或shortpath,中文“直连”或“捷径”)是CNN模型发展中出现的一种非常有效的结构,本文将从Highway networks到ResNet再到DenseNet概述shortcut的发展。

前言       

       自2012年Alex Krizhevsky利用深度卷积神经网络(CNN)(AlexNet [1])取得ImageNet比赛冠军起,CNN在计算机视觉方面的应用引起了大家广泛地讨论与研究,也涌现了一大批优秀的CNN模型。研究人员发现,网络的深度对CNN的效果影响非常大,但是单纯地增加网络深度并不能简单地提高网络的效果,由于梯度发散,反而可能损害模型的效果。而shortcut的引入就是解决这个问题的妙招。本文主要就模型发展中的shortcut展开讨论。欢迎大家多多批评指正。

一、Highway networks

       Highway [2] 是较早将shortcut的思想引入深度模型中一种方法,目的就是为了解决深度网络中梯度发散,难以训练的问题。我们知道,对于最初的CNN模型(称为“plain networks”,并不特指某个模型框架),只有相邻两层之间存在连接,如图1所示(做的图比较丑,请多担待),x、y是相邻两层,通过W_H连接,通过将多个这样的层前后串接起来就形成了深度网络。相邻层之间的关系如下,

其中H表示网络中的变换。

图1

       为了解决深度网络的梯度发散问题,Highway在两层之间增加了(带权的)shortcut(原文中并没有使用这个名词,为统一起见,采用术语shortcut)。两层之间的结构如图2所示,

图2

x,y的关系如下式,

其中设置C=1-T,可以将上式改写为,

       作者将T称为“transform gate”,将C称为“carry gate”。输入层x是通过C的加权连接到输出层y。通过这种连接方式的改进,缓解了深度网络中的梯度发散问题。Highway networks与plain networks的训练误差对比如图3所示。可以看到对于plain networks,随着层数的增加,训练误差在逐步扩大,而对于highway networks,训练误差比较稳定,显著低于plain networks的误差,尤其是在层数非常深的时候。

图3

算法在CIFAR数据集上的分类结果如图4所示。

图4

       尽管在实验结果上,highway networks并没有比之前的一些模型取得显著地提升,但是它的这种思想对后面的模型改进影响非常大。

二、ResNet

       ResNet [3]的动机依然是解决深度模型中的退化问题:层数越深,梯度越容易发散,误差越大,难以训练。理论上,模型层数越深,误差应该越小才对,因为我们总可以根据浅层模型的解构造出深层模型的解(将深层模型与浅层模型对应的层赋值为浅层模型的权重,将后面的层取为恒等映射),使得这个深层模型的误差不大于浅层模型的误差。但是实际上,深度模型的误差要比浅层模型的误差要大,在CIFAR-10上面的训练和测试误差如图5所示。

图5

       作者认为产生这种现象的原因是深度模型难以优化,难以收敛到较优的解,并假设相比于直接优化最初的plain networks的模型F(x)=y,残差F(x)=y-x更容易优化。对于plain networks的模型,形式化地表示为图6(本质上与图1的结构类似,采用图6主要是为了与论文中的描述一致),F就是要优化的目标F(x)=y。

图6

而对于ResNet,形式化地表示为图7,优化的目标F为F(x)=y-x,即为残差。

图7

       需要注意的是,变换F可以是很多层,也就是说shortcut不一定只跨越1层。并且实际中,由于shortcut只跨越单层没有优势,ResNet中是跨越了2层或3层,如图8所示。ResNet-34中,采用图8左侧的shortcut跨越方式;ResNet-50/101/152采用图8右侧的shortcut跨越方式。

图8

ResNet-34与其他两种模型的对比如图9所示。

图9

       经过改进之后,ResNet与plain networks在ImageNet上的训练误差对比如图10。对于plain networks,34层的模型误差要比18层的误差大,而对于ResNet,34层的模型误差要小于18层的误差。

图10

在ImageNet和CIFAR-10上面的结果对比如图11所示。

图11

对比highway networks和ResNet,可以看到ResNet的改进主要在以下方面,

1,将highway networks的T和C都设为1,降低模型的自由度(深度模型中,自由度越大未必越好。自由度越大,训练会比较困难)。

2,shortcut不仅限于跨越1层,而可以跨越2层或3层。

三、DenseNet

       DenseNet [4]的初衷依然是为了解决深度模型的退化问题——梯度发散,借鉴highway networks和ResNet的思路,DenseNet将shortcut用到了“极致”——每两层之间都添加shortcut,L层的网络共有L*(L-1)/2个shortcut(这样会不会太简单粗暴了?模型会不会太大?参数会不会太多?计算会不会太慢?放心,作者当然不会直接这么做)。通过shortcut可以直接将浅层的信息传递到深层,一方面可以解决退化问题,另一方面也可以看作是特征重用(feature reuse)。

       首先来回顾一下highway networks和ResNet的连接单元,为了与文中表达式保持一致,又做了几幅丑图,见谅。对于plain networks,相邻两层之间有,

连接单元如图12所示,

图12

对于ResNet,相邻两层之间有,

连接单元如图13所示,

图13

而对于DenseNet,则有,

连接单元如图14所示,每层的输出结果都会通过shortcut连接到后面的层。

图14

       如果真的每层的输出都稠密地连接到后面的所有层,那么模型将变得非常“宽”,计算将会很慢。因此,作者采用的是“局部”稠密连接,如图15所示,每个block里面才进行稠密连接。每个block里面的连接方式如图16所示,前面层的输出通过shortcut直接连接到block中后面的其他层。block之间通过transition层连接。

图15
图16

       对于一个包括t层的block,假设每层输出k个feature map(或通道),则第i(1 ≤i≤ t)层的输入feature map数为k*(i-1)+k0,其中k0为block的输入的通道数。将层分block只是限制了i的大小,如果每层的输出数k比较大的话,计算仍然很慢,因此作者也对k进行了限制,文中k称为growth rate。此外为了将模型进一步压缩,作者还采用了bottleneck layer和对transition的输出进行压缩(DenseNet-BC)。

       在ImageNet任务上,不同层数的DenseNet的架构如图17所示,

图17

相比ResNet,DenseNet的参数更少(主要是因为feature map少),计算更快。对比如图18所示,

图18

       DenseNet在CIFAR和SVHN数据集上的误差对比如图19所示,可以看出,DenseNet在模型大小和算法精度上都具有非常大的优势。从实用角度来讲,DenseNet获得CVPR2017 best paper也不足为奇。

图19

       对比highway networks和ResNet,可以看到DenseNet的改进主要在shortcut的使用上,将网络层进行稠密连接,shortcut可以跨越很多层并可以同时存在,通过将网络分为block和限制每层的输出通道数来减少参数和降低计算复杂度。

总结

       为了解决深度模型中的梯度发散问题,很多技术方法被提了出来,shortcut是其中一种非常有效的方法。本文主要概述了shortcut使用的一些历程,希望通过本文能给其他技术方法的改进带来一丝启发。不足之处还请多多指正。谢谢!

参考文献:

1 ImageNet Classification with Deep Convolutional Neural Networks.

2 Training Very Deep Networks.

3 Deep Residual Learning for Image Recognition.

4 Densely Connected Convolutional Networks.

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

探索DNN

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

数据挖掘算法(logistic回归,随机森林,GBDT和xgboost)

面网易数据挖掘工程师岗位,第一次面数据挖掘的岗位,只想着能够去多准备一些,体验面这个岗位的感觉,虽然最好心有不甘告终,不过继续加油。 不过总的来看,面试前有准备...

6379
来自专栏小樱的经验随笔

回归与梯度下降法及实现原理

回归与梯度下降 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回...

3866
来自专栏红色石头的机器学习之路

台湾大学林轩田机器学习技法课程学习笔记1 -- Linear Support Vector Machine

关于台湾大学林轩田老师的《机器学习基石》课程,我们已经总结了16节课的笔记。这里附上基石第一节课的博客地址: 台湾大学林轩田机器学习基石课程学习笔记1 – Th...

2470
来自专栏PPV课数据科学社区

机器学习常见的算法面试题总结

摘要:包含机器学习常见算法公式、原理和优缺点比较,简介清洗,适合作为面试和考试前速查和记忆使用。 朴素贝叶斯 P(A∩B)=P(A)*P(B|A)=P(B)*P...

8925
来自专栏量子位

深度学习入门者必看:25个你一定要知道的概念

王瀚森 编译自 Analytics Vidhya 量子位 出品 | 公众号 QbitAI 人工智能,深度学习,机器学习……不管你在从事什么工作,都需要了解这些概...

4298
来自专栏张俊红

决策树详解

总第79篇 01|背景: 我们在日常生活中经常会遇到一些选择需要去做一些选择,比如我们在找工作的时候每个人都希望能找到一个好的工作,但是公司那么多,工作种类那么...

3435
来自专栏新智元

Reddit热文:MIT\北大\CMU合作, 找到深度神经网络全局最优解

在目标函数非凸的情况下,梯度下降在训练深度神经网络中也能够找到全局最小值。本文证明,对于具有残差连接的超参数化的深度神经网络(ResNet),采用梯度下降可以在...

793
来自专栏机器之心

学界 | 神经网络碰上高斯过程,DeepMind连发两篇论文开启深度学习新方向

函数近似是机器学习众多问题的核心,而过去深度神经网络凭借其「万能近似」的属性在函数近似方面无与伦比。在高级层面,神经网络可以构成黑箱函数近似器,它会学习如何根据...

1372
来自专栏量化投资与机器学习

【机器学习研究】隐马尔可夫模型 (HMM) 最认真研究

隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然...

5669
来自专栏大数据挖掘DT机器学习

隐马尔可夫模型攻略

隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然...

36211

扫码关注云+社区