VGG(2014)，3x3卷积的胜利

李拜六不开鑫

修改于 2020-04-26 16:04:53

6550

修改于 2020-04-26 16:04:53

文章被收录于专栏：本立2道生

写在前面

VGG(2014)网络出自paper《Very Deep Convolutional Networks for Large-Scale Image Recognition》，为ILSVRC2014 localization冠军和classification亚军方法（冠军为GoogLeNet），首次提交arXiv时间为2014年9月，后发表在ICLR2015，截止20191011引用量达27612。因为出自牛津大学Visual Geometry Group，所以网络被命名为VGG，根据层数不同，又分为VGG16、VGG19等。

网络结构

文中列举了配置不同的5个网络，分别命名为A、A-LRN、B、C、D、E，网络结构及参数量如下图所示，

paper中的实验均在上述网络中进行，下面具体看一下。

multi-scale training and testing

上面的对比实验，可得出以下结论：

随着深度增加，性能变好
与A相比，A-LRN性能没有改善，LRN用途不大
无论是training还是testing，multiple scale均能改善性能，两者结合使用效果更佳
在当前数据集和网络结构配置上，VGG16（D）和VGG19（E）性能基本一样，接近饱和

对于multi scale对性能的改善，想来也是合理的，因为图像中目标的尺寸并不确定，有大有小，在训练阶段通过scale jittering来增广数据，可让网络在一定程度上cover这种变化，而在预测阶段，multi scale可以看成在输入数据上做的集成学习，亦是提升性能的常规操作。

其他有意思的点

论文中还有一些其他有意思的点，简单总结如下，

为了网络能正常收敛，权重的初始化很重要，原来是先训练浅层网络A，然后用A的权重初始化后面深层网络前4个卷积层和最后3个全连接层，其他层从高斯分布中随机初始化。在paper submission后发现，直接采用Understanding the difficulty of training deep feedforward neural networks中的初始化方法就可以，即Xavier方法。
paper中评论，因为A-LRN中的Local Response Normalisation(LRN)没有效果，还增加了内存使用和计算量，所以后面的BCDE网络就不用了（微笑）。
在ILSVRC-2014 challenge中，VGG提交的是7模型融合结果，提交后他们测试2模型的融合结果要更好，top1 val好1%，top5 val好0.5%，不过是在multi-scale traing、multi-crop和dense一起加成下取得的结果。
VGG (1 net, multi-crop & dense eval) 单网络比GoogLeNet单网络的性能要好约1%。
2014年，ImageNet竞赛Top5错误率首次进入0~10%区间。

以上。