VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION(VGG)

狼啸风云

修改于 2022-09-03 20:55:38

2.1K0

摘要

在这项工作中，我们研究了卷积网络深度对其在大规模图像识别设置中的准确性的影响。我们的主要贡献是使用一个非常小的(3×3)卷积滤波器的架构对增加深度的网络进行了全面的评估，这表明通过将深度提升到16-19个权重层，可以显著改善先前的配置。这些发现是我们提交的ImageNet挑战赛的基础，我们的团队在定位和分类方面分别获得了第一名和第二名。我们还表明，我们的表现可以很好地推广到其他数据集，在这些数据集上，他们可以获得最先进的结果。我们已经公开了两个性能最好的ConvNet模型，以便进一步研究如何在计算机视觉中使用深度视觉表示。

1、简介

卷积网络(ConvNets)最近在大规模图像和视频识别方面取得了巨大成功，由于大型公共图像存储库(如ImageNet (Deng et al.， 2009))和高性能计算系统(如gpu或大型分布式集群)(Dean et al.， 2012)而成为可能。特别是,一个重要的角色在促进深度视觉识别体系结构已由ImageNet Large-ScaleVisual识别挑战(ILSVRC) ,它曾作为几代实验平台的大规模图像分类系统,从高维浅特征编码 (ILSVRC - 2011)的获胜者深处回旋网(Krizhevsky et al ., 2012) (ILSVRC - 2012)的获胜者。随着卷积神经网络在计算机视觉领域越来越成为一种商品，人们进行了许多尝试来改进Krizhevsky等人的原始架构，以达到更好的准确性。例如，在ILSVRC-2013上表现最好的作品利用较小的接受窗口大小和较小的第一卷积层步幅。另一条改进路线是在整个图像和多个尺度上密集地训练和测试网络。在本文中，我们讨论了ConvNet架构设计的另一个重要方面——深度。为此，我们修正了架构的其他参数，通过增加卷积层来稳步增加网络的深度，这是可行的，因为在所有层中都使用了非常小的(3×3)卷积滤波器。结果,我们提出更准确的事先架构,不仅实现了先进的准确性在ILSVRC分类和定位的任务,但也适用于其他图像识别的数据集,在他们达到优秀的性能几乎作为一个相对简单的管道的一部分(例如深度线性SVM分类的特性没有微调)。为了便于进一步的研究，我们已经发布了两个性能最好的模型。论文的其余部分组织如下。在第二节中，我们描述了我们的ConvNet配置。第3节给出了图像分类训练和评价的细节，并对第4节中ILSVRC分类任务的配置进行了比较。第五节总结全文。为了完整性，我们还在附录b中描述和评估了我们的ILSVRC-2014对象本地化系统，并讨论了附录b中对其他数据集的深度特性的概括。

2、卷积配置

为了在公平的环境下测量增加的ConvNet深度所带来的改善，我们所有的ConvNet层配置都使用相同的原则设计。在本节中，我们首先描述了我们的ConvNet配置的一般布局，然后详细介绍了评估中使用的具体配置。然后讨论我们的设计选择，并与2.3节中的现有技术进行比较。

2.1、结构

在训练中，我们的卷积神经网络的输入是一个固定大小的224×224 RGB图像。我们所做的唯一预处理就是从每个像素中减去训练集上计算的主题RGB值。图像通过一堆卷积(conv.)层传递，我们使用带有非常小的接受域的过滤器:3×3(这是捕捉左/右、上/下、中间概念的最小大小)。在其中一种配置中，我们还使用了1×1的卷积滤波器，它可以看作是输入通道的线性变换(其次是非线性)。卷积步幅固定为1像素;凹凸层输入的空间填充是卷积后保持空间分辨率，即3×3凹凸层的填充为1像素。空间池化由5个max-pooling层实现，它们遵循一些conve . layers(不是所有的convx . layers都遵循max-pooling)。最大池是在一个2×2像素的窗口上执行的，步长为2。一个卷积层堆栈(在不同的架构中具有不同的深度)后面是三个全连接(FC)层:前两个层各有4096个信道，第三个层执行1000路ILSVRC分类，因此包含1000个信道(每个类一个信道)。最后一层是软max层。在所有网络中，全连接层的配置是相同的。所有的隐层都经过校正(ReLU)。我们注意到，我们的网络中没有一个(除了一个)包含局部响应正态化(LRN)正态化:如第4节所示，这种正态化不会提高ILSVRC数据集的性能，但会导致内存消耗和计算时间的增加。适用时，LRN层的参数为AlexNet。

2.2、配置

本文所评估的ConvNet配置列在表1中，每列一个。在下面，我们将提到网队的名字(A-E)。所有的配置都遵循2.1节中提出的通用设计，只是在深度上有所不同:从网络A中的11个权重层(8个卷积层和3个FC层)到网络E中的19个权重层(16个卷积层和3个FC层)。对卷积层的宽度(通道的数量)相当小，从第一层的64个通道开始，然后在每个最大池化层之后增加2倍，直到达到512个通道。在表2中，我们报告了每种配置的参数数量。尽管深度很大，但我们的网中权值的数量并不大于更浅的网中权值的数量，更大的卷积层宽度和接受域。

2.3、讨论

我们的ConvNet配置与ILSVRC-2012 和ILSVRC-2013竞赛。而不是在第一个对流中使用相对较大的接受域(例如11×11和stride 4，或7×7和stride 2),我们使用非常小的3×3接受字段在整个网络,convolvedwith输入的每个像素(1步)。很容易看到一堆两个3×3 conv.层(没有空间池化)之间有一个有效的接受域5×5;三层的有效感受野为7×7。那么，我们通过使用三个3×3的对流层而不是单个的7×7层，得到了什么呢?首先，我们加入了三个非线性的校正层，而不是一个单一的校正层，这使得决策函数更有辨别力。其次，我们减少了参数的数量:假设一个三层的3×3卷积堆栈的输入和输出都有C通道，该堆栈由3个\left(3^{2} C^{2}\right)=27 C^{2} 权值参数化;同时，单个7×7对流层需要7^{2} C^{2}=49 C^{2} 参数，即81%以上。这可以看作是对7×7对流滤波器进行正则化，迫使它们通过3×3滤波器进行分解(在中间注入非线性)。1×1对流层的加入(配置C，表1)是在不影响对流层感受域的情况下，增加决策函数的非线性的一种方法。尽管在我们的例子中，1×1卷积本质上是在相同维度的空间上的线性投影(输入和输出通道的数量是相同的)，一个额外的非线性是由整流函数引入的。值得注意的是，Lin等人(2014)的“网络中的网络”架构最近使用了1×1对流层。Ciresan等人曾使用过小型卷积滤波器，但他们的网明显不如我们的深，而且他们没有在大型ILSVRC数据集上进行评估。Goodfellow等将deep ConvNets(11个权值层)应用于街号识别任务，结果表明，深度的增加会带来更好的性能。GoogLeNet,表现条目ILSVRC- 2014的分类任务,是我们工作的独立开发,但类似,因为它是基于回旋网很深的重量(22层)和小卷积过滤器(除了3×3,他们也用1×1和5×5旋转)。但是，它们的网络拓扑结构比我们的复杂，并且在第一层大大降低了特征图的空间分辨率，以减少计算量。如4.5节所示，我们的模型在单网络分类精度上优于Szegedy et al。

3、分类框架

在前一节中，我们介绍了网络配置的细节。在本节中，我们将详细描述分类卷积神经网络的训练和评估。

3.1、训练

ConvNet的训练过程一般遵循Krizhevsky等人的方法(除了从多尺度训练图像中采样输入作物外，后面将对此进行解释)。即利用小批量梯度下降(基于反向传播)和动量对多项逻辑回归目标进行优化。批量大小设置为256，动量设置为0.9。训练通过重量衰减(L2惩罚乘数设置为

)和前两个全连接层的dropout正则化(dropout ratio设置为0.5)进行正则化。学习率最初设置为10−2，然后当验证集准确性停止提高时，学习速率降低了10倍。总的来说，学习速度降低了3倍，经过370K次迭代(74个epoch)后学习停止。我们推测，尽管与AlexNet相比，我们的网具有更大的参数数量和更大的深度，但由于(a)更大的深度和更小的对流施加的隐式正则化，网需要更少的收敛时间;(b)预先设定某些层面。网络权值的初始化很重要，因为糟糕的初始化会由于深度网络中梯度的不稳定性而导致学习的停滞。为了避免这个问题，我们开始训练配置A(表1)，它足够浅，可以用随机初始化进行训练。然后，在训练更深层次的架构时，我们用Net A层初始化了前4个卷积层和后3个全连接层(中间层是随机初始化的)。我们没有降低预初始化层的学习率，允许它们在学习过程中发生变化。对于随机初始化(在适用的情况下)，我们从正态分布中采样权值，其均值为0，方差为10^{-2} 。偏差初始值为零。值得注意的是，在提交论文后，我们发现可以使用glorot&bengio(2010)的随机初始化过程，在没有预先训练的情况下初始化权重。为了获得固定大小的224×224ConvNet输入图像，从重新排序的训练图像中随机裁剪这些图像(每个SGD迭代一个图像)。为了进一步扩大训练集，作物进行了随机水平翻转和随机rgb彩色移位。训练图像的重新缩放如下所示。

图像尺寸：设S为等温重标训练图像的最小边，从中裁剪出ConvNet输入(我们也称S为训练标度)。当裁剪尺寸固定为224×224时，原则上S可以取不小于224的任何值:对于S = 224，裁剪将捕获整幅图像统计，完全跨越训练图像的最小边;对于S>>224，裁剪将对应于图像的一小部分，包含一个小目标或一个目标部分。我们考虑了两种设置训练规模S的方法。第一种是固定S，它对应于单尺度的训练(注意，采样作物中的图像内容仍然可以表示多尺度的图像统计)。在我们的实验中，我们评估了在两个固定尺度下训练的模型:S = 256(这在现有技术中被广泛使用和S = 384。给定一个ConvNet配置，我们首先使用S = 256训练网络。为了加速S = 384网络的训练，我们使用S = 256预先训练的权值进行初始化，我们使用较小的初始学习率10^{-3} 。设置S的第二种方法是多尺度训练，每个训练图像通过从一定范围\left[S_{\min }, S_{\max }\right] (我们使用S_{\min }=256 和S_{\max }=256 )中随机采样S来单独重新分级。由于图像中的目标可以是不同大小的，因此在训练时考虑这一点是有益的。这也可以被看作是通过尺度抖动来增强训练集，其中单个模型被训练来识别大范围尺度上的目标。由于速度的原因，我们通过对具有相同配置的单标度模型的所有层进行微调来训练多标度模型，并使用固定的S = 384进行预训练。

3.2、测试

在测试时，给定一个训练好的卷积神经网络和一个输入图像，对其进行如下分类。首先，它被均衡地重新调整到一个预先定义的最小图像边，记作Q(我们也称它为测试标度)。我们注意到Q不一定等于训练量表S(我们将在第4节中说明，为每个S使用几个Q值可以提高性能)。然后，以类似于的方式在重新标度的测试图像上密集地应用网络。即全连通层先转换为卷积层(第一层FC层为7×7卷积层，最后两层FC层为1×1卷积层)。生成的全卷积网络然后应用于整个(未裁剪的)图像。结果是一个类得分图，通道的数量等于类的数量，空间分辨率可变，取决于输入图像的大小。最后，为了获得图像的固定大小的类分数向量，对类分数图进行空间平均(和池)。我们还通过图像的水平翻转来增加测试集;对原始图像和翻转后的图像进行软最大类后验平均，得到图像的最终得分。

由于全卷积网络应用于整个图像，因此不需要在测试时对多个剪裁图像进行采样，这是效率较低的，因为它需要对每个剪裁图像进行网络重新计算。与此同时，Szegedy等人使用大量的剪裁图像可以提高准确性，因为与全卷积网络相比，它可以对输入图像进行更精细的采样。同时,multi-crop评价是密集的补充评价由于不同的卷积边界条件:当应用事先作物,卷积功能地图用0填充,在密集的情况下评估填充为同一作物自然来自邻近的部分图像(由于卷积和空间池化),这大大增加了整体网络接受域,所以捕捉更多的上下文。虽然我们相信在实践中多个计算时间的增加剪裁图像并不证明准确性的潜在收益,我们也评估网络供参考使用50剪裁图像/规模(5×5正则网格与2次),总共150种剪裁图像/ 3尺度,这是与所使用的144种剪裁图像/4尺度Szegedy et al。

3.3、实现细节

实现来源于公开C++ Caffe,但包含许多重要的修改,允许我们进行训练和评价多个GPU安装在一个系统,以及训练和评估全尺寸(uncropped)图像多尺度。多GPU训练利用数据的并行性，将每一批训练图像分割成若干个GPU批次，在每个GPU上并行处理。计算GPU批处理梯度后，对梯度求平均值，得到整个批处理的梯度。梯度计算在GPU之间是同步的，因此结果与在单一GPU上训练时完全相同。在更复杂的方法,加快事先训练最近提议，使用模型和数据并行性的不同层网,我们发现我们的概念上更简单的方案已经提供了一个现成的4-GPU系统上加速的3.75倍,比使用单一GPU。在一个配备了4个NVIDIA Titan黑色GPU的系统上，根据不同的架构，训练一个网络需要2 - 3周。

4、分类实验

数据：在本节中，我们将展示所描述的ConvNet架构在ILSVRC-2012数据集(用于ILSVRC 2012-2014挑战)上获得的图像分类结果。数据集包含1000个类的图像，分为三组:训练(130万张图像)、验证(50万张图像)和测试(10万张带有类标签的图像)。使用两个度量来评估分类性能:top-1和top-5错误。前者是一个多类分类错误，即分类不正确的图像所占比例;后者是ILSVRC中使用的主要评价标准，计算为图像的比例，使得ground-truth类别超出了前5个预测类别。对于大多数实验，我们使用验证集作为测试集。某些实验也在测试集上进行，并作为“VGG”团队参赛作品提交给ILSVRC-2014竞赛的官方服务器。

4.1、单一规模的评估

我们首先使用2.2节中描述的层配置来评估单个ConvNet模型在单个尺度上的性能。测试图像大小设置如下:对于固定的S, Q = S;对于抖动的S \in\left[S_{\min }, S_{\max }\right] ， Q=0.5\left(S_{\min }+S_{\max }\right) 。结果如表3所示。首先，我们注意到使用局部响应规范化(A- LRN网络)并不能改进没有任何规范化层的模型A。因此，我们不会在更深层次的架构(B-E)中使用标准化。第二,我们观察到的分类误差随深度增加事先:从11层至19层e .值得注意的是,尽管同样的深度,配置C(包含三个1×1 conv.层),执行比配置D,采用3×3 conv.层在整个网络。这表明尽管附加非线性帮助(C比B),同样重要的是捕捉与非平凡的接受领域的空间上下文使用conv.过滤器(D比C)。我们架构的错误率浸透当深度达到19层,但更深层次的模型可能是有益的更大的数据集。我们还将净B与5个5×5对流层的浅网进行了比较，这5个5×5对流层由B衍生而来，每对3×3对流层替换为一个5×5对流层(其接受域与2.3节所述相同)。测得浅网的前1位误差比B网(在中心作物上)高7%，这证实了带小滤光器的深网比带大滤光器的浅网性能好。最后，在训练时进行尺度抖动(S∈[256,512])比在最小边固定的图像(S = 256或S = 384)上训练效果要好得多，即使在测试时使用单一尺度。这证实了通过尺度抖动增强训练集确实有助于捕获多尺度图像统计。

4.2、多尺度评估

在单一尺度上评估了ConvNet模型之后，我们现在评估测试时尺度抖动的影响。它包括在测试图像的几个重新调整的版本上运行模型(对应于不同的Q值)，然后对得到的类后验求平均值。考虑到训练尺度和测试尺度的巨大差异导致性能下降，采用固定S训练的模型在三种测试图像大小上进行评估，接近于训练的Q = {S−32,S,S + 32}。同时，训练时的尺度抖动使得网络在测试时可以应用到更大的尺度范围内，因此使用变量S∈[Smin;Smax]训练的模型在更大的尺度范围Q = {Smin, 0.5(Smin +Smax)，Smax}上进行评估。结果如表4所示,表明规模抖动测试时候会导致更好的性能(相对于评估相同的模型在一个单一的规模,表3所示),和之前一样,最深的配置(D和E)表现最好的,和规模抖动比训练一个固定的最小边美国最好单独的网络性能验证组排名前24.8% / 7.5% /五大错误(以粗体突出显示在表4)。在测试集,配置E达到7.3%的前5位误差。

4.3、错层裁剪评估

在表5中，我们将密集对流评价与多作物评价进行了比较(详见3.2节)。我们还通过平均这两种评估技术的softmax输出来评估它们的互补性。从图中可以看出，使用多种作物比密集评价的效果稍好，而且这两种方法确实是互补的，因为它们的结合比它们各自的效果都好。如上所述，我们假设这是由于卷积边界条件的不同处理。

4.4、卷积融合

到目前为止，我们评估了个别对流模型的性能。在这一部分的实验中，我们将几个模型的输出通过平均它们的软最大类后验来合并。由于模型的互补性，这提高了性能，并在2012年和2013年。结果如表6所示。到ILSVRC提交时，我们只训练了单尺度网络和多尺度模型D(通过只微调全连接层而不是所有层)。得到的7个网络的合集有7.3%的ILSVRC测试误差。提交后，我们只考虑了两个性能最好的多尺度模型(配置D和E)的集成，使用密集评价将测试误差降低到7.0%，使用密集和多作物联合评价将测试误差降低到6.8%。作为参考，我们性能最好的单个模型的误差达到了7.1%(模型E，表5)。

4.5、和最先进的方法比较

最后，我们将结果与表7中最先进的技术进行比较。在ILSVRC-2014挑战赛的分类任务中(Russakovsky et al.， 2014)，我们的“VGG”团队使用7个模型的集合以7.3%的测试误差获得了第二名。提交后，我们使用2个模型的集成将错误率降低到6.8%。从表7可以看出，我们的very deep ConvNets明显优于上一代模型，在ILSVRC-2012和ILSVRC-2013比赛中取得了最好的成绩。我们的结果与分类任务赢家(GoogLeNet有6.7%的错误)相比也是有竞争力的，并且大大超过了ILSVRC-2013获胜提交的Clarifai，后者在有外部训练数据的情况下达到了11.2%，在没有训练数据的情况下达到了11.7%。这是值得注意的，考虑到我们的最佳结果是通过结合只有两个模型-大大低于使用在大多数ILSVRC提交。在单网性能方面，我们的架构达到了最好的结果(7.0%的测试错误)，比单一的GoogLeNet好0.9%。值得注意的是，我们并没有背离LeCun等人(1989)的经典ConvNet架构，而是通过大幅增加深度来改进它。

5、结论

在这项工作中，我们评估了非常深的卷积网络(多达19个权重层)用于大规模图像分类。结果表明，表示深度有助于提高分类精度，并且可以使用传统的alconvnet体系结构实现ImageNet challenge数据集的最新性能，深度显著增加。在附录中，我们还展示了我们的模型可以很好地概括大范围的任务和数据集，匹配或输出更复杂的识别管道。我们的结果再次证实了深度在视觉表现中的重要性。

A、定位

在论文的主体部分，我们考虑了ILSVRC挑战的分类任务，并对不同深度的ConvNet架构进行了深入的评估。在这一部分，我们转向挑战的本地化任务，我们在2014年赢得了25.3%的错误。它可以被看作是目标检测的一种特殊情况，在这种情况下，应该为前5个类中的每个类预测一个目标边界框，而不考虑类的实际目标数量。为此，我们采用了Sermanet等人的方法，他们是ILSVRC-2013本地化挑战的获胜者，只是做了一些修改。我们的方法在a节中描述。并在a .2节中求值。

A.1、定位卷积

为了执行目标定位，我们使用了一个非常深的卷积网络，其中最后一个完全连接的层预测边界框位置，而不是类得分。包围框由存储其中心坐标、宽度和高度的4-D向量表示。可以选择是所有类共享边界框预测，还是特定于类(每类回归，PCR)。在前一种情况下，最后一层是4-D，而在后一层是4000-D(因为数据集中有1000个类)。除了最后一个边界框预测层之外，我们使用了ConvNet架构D(表1)，它包含16个权重层，在分类任务(第4节)中表现最好。

训练：本地化卷积神经网络的训练类似于分类卷积神经网络的训练。主要区别是我们用欧几里德损失代替了逻辑回归目标，这惩罚了预测边界盒参数与地面真实值的偏差。我们训练了两个本地化模型，每个模型都在一个单一的范围内:S = 256和S = 384(由于时间限制，我们在ILSVRC-2014提交时没有使用训练规模抖动)。使用相应的分类模型(在相同的尺度上进行训练)初始化训练，初始学习率设置为10−3。我们研究了所有层的微调和只微调前两个完全连接的层。最后的全连接层是随机初始化和从零开始训练的。

测试：我们考虑两个测试协议。第一种方法用于比较验证集上的不同网络修改，只考虑ground truth类的边界框预测(以排除分类错误)。通过将网络仅应用于图像的中心裁剪来获得边界框。

第二个是成熟的测试程序，它基于局部化卷积神经网络对整个图像的密集应用，类似于分类任务。不同之处在于，最后一个全连接层的输出是一组边界框预测，而不是类得分地图。为了得到最终的预测，我们使用了Sermanet et al.的贪婪合并过程，该过程首先合并空间相近的预测(通过对它们的坐标求平均值)，然后根据从分类卷积网络获得的类分数对它们进行评级。当使用几个定位的ConvNets时，我们首先获取它们的边界框预测集合的并集，然后在并集上运行合并过程。我们没有使用Sermanet等人的多重池偏移技术，该技术提高了边界框预测的空间分辨率，可以进一步改善结果。

A.2、定位实验

在本节中，我们首先确定性能最佳的本地化设置(使用第一个测试协议)，然后在完全成熟的场景中评估它(第二个协议)。定位误差根据ILSVRC准则进行测量，即当边界框与ground truth边界框的相交比大于并集比0.5时，即认为边界框预测是正确的。

设置比较：从表8可以看出，单类回归(PCR)的表现优于类不可知的单类回归(SCR)，这与Sermanet et al.的结果不同，后者的PCR表现优于SCR。我们还注意到，为去碳化任务对所有层进行微调比只对全连接层进行微调的结果明显更好。在这些实验中，最小的图像边长设置为S = 384;S = 256的结果表现出相同的行为，并且为了简洁而不显示。

全面的评估：在确定最好的本地化设置(所有层的PCR,微调),我们现在把它应用在成熟的场景中,在五大类标签预计使用我们表现最好的分类系统(4.5。),和多个densely-computed边界框预测合并使用Sermanet et al.的方法。从表9可以看出，尽管使用了前5个预测类标签而不是ground truth，但与使用中心裁剪相比，局部化ConvNet对整个图像的应用大大提高了结果(表8)。与分类任务(第4节)类似，在多个尺度上进行测试并结合多个网络的预测进一步提高了性能。

B、非常深的特征激活

在前面几节中，我们讨论了在ILSVRC数据集上对非常深的ConvNets进行训练和评估。在本节中，我们将在ILSVRC上预训练的ConvNets评估为在其他更小的数据集上的特征提取器，由于过度拟合，从零开始训练大型模型是不可行的。最近，人们对这种用例有很多兴趣，结果表明，在ILSVRC上学习的深层图像表示，可以很好地推广到其他数据集，在这些数据集上，它们的表现远远好于手工制作的表示。遵循这一工作路线，我们调查我们的模型是否比现有方法中使用的浅层模型具有更好的性能。在此评估中，我们考虑了在ILSVRC(第4节)上具有最佳分类性能的两个模型——配置“Net-D”和“Net-E”(我们将其公开提供)。为了利用在ILSVRC上预先训练的ConvNets，对其他数据集进行图像分类，我们删除了最后一个全连接层(执行1000类ILSVRC分类)，并使用倒数第二层的4096个激活作为图像特征，这些特征是跨多个位置和尺度聚合的。将得到的图像描述符l2归一化，并与线性SVM分类器结合，在目标数据集上进行训练。为简单起见，预先训练的卷积神经网络权值保持不变(不执行微调)。特征的汇总以类似于我们的ILSVRC评估程序的方式进行(第3.2节)。也就是说，首先对图像进行重新调整，使其最小的边等于Q，然后在图像平面上密集地应用网络(当所有的权值层都作为卷积处理时，这是可能的)。然后，我们在生成的feature map上执行全局平均池，生成一个4096-D的图像描述符。然后用水平翻转图像的描述符求平均值。如4.2节所示，在多个尺度上进行评估是有益的，因此我们从多个尺度上提取特征Q.由此产生的多尺度特征可以在多个尺度上叠加或合并。堆叠允许一个后续分类器学习如何在一个尺度范围内最佳地组合图像统计;然而，这是以增加描述符维数为代价的。在下面的实验中，我们将回到对这种设计选择的讨论。我们还评估了使用两个网络计算的特征的后期融合，这是通过叠加各自的图像描述符来实现的。

VOC 07和VOC 12图像分类实验：我们首先对PASCAL VOC-2007和VOC -2012基准的图像分类任务进行评估。这些数据集分别包含10K和22.5K的图像，每个图像都用一个或多个标签进行注释，对应20个目标类别。VOC组织者提供了预先定义的训练、验证和测试数据。识别性能的测量使用平均平均精度(mAP)跨类。值得注意的是，通过检查VOC-2007和VOC-2012验证集的性能，我们发现，通过多尺度计算的图像描述符聚合，其平均效果与叠加的聚合效果相似。我们假设，这是因为在VOC数据集中，目标出现在各种尺度上，因此没有特定尺度的语义可供分类器利用。由于平均具有不使描述符维数膨胀的优点，所以我们能够在大范围内聚合图像描述符:Q∈{256,384,512,640,768}。不过值得注意的是，在较小的{256,384,512}范围内的改进非常有限(0.3%)。表11报告了测试集的性能，并与其他方法进行了比较。我们的网络“Net-D”和“Net-E”在VOC数据集上表现出相同的性能，它们的组合略微改善了结果。我们的方法设置了跨图像表示的新技术状态，在ILSVRC数据集上进行预训练，比Chatfield等人之前的最佳结果高出6%以上。值得注意的是，Wei等人(2014)的方法在VOC-2012上获得了1%的更好的mAP，它是在一个扩展的2000级ILSVRC数据集上进行预训练的，该数据集包含额外的1000个类别，语义上与VOC数据集中的类别接近。它还得益于与目标探测辅助分类管道的融合。

Caltech-101和Caltech-256上的图像分类：在本节中，我们评估非常深入的特征在Caltech-101和Caltech -256 图像分类基准。Caltech-101包含9K张图片，分为102个类(101个目标类别和一个背景类)，而Caltech-256更大，有31K张图片和257个类。对这些数据集的一个标准评估协议是生成若干随机分割成训练和测试数据，并报告分割后的平均识别性能，该性能由平均类Recall(补偿每个类不同数量的测试图像)来测量。在Caltech-101上，我们生成了3个随机分割成训练和测试数据，每个分割每个类包含30个训练图像，每个类包含50个测试图像。在Caltech-256中，我们还生成了3个分割，每个分割每个类包含60个训练图像(其余的用于测试)。在每个分割中，20%的训练图像被用作超参数选择的验证集。我们发现，与VOC不同的是，在加州理工学院的数据集上，经过多尺度计算的描述符的叠加比平均或最大汇聚表现得更好。这可以通过以下事实来解释:在Caltech图像中，目标通常占据整个图像，因此多尺度图像特征在语义上是不同的(捕捉整个目标和目标部分)，而堆叠允许分类器利用这种特定于尺度的表示。我们使用三个scale Q∈{256,384,512}。我们的模型之间的比较和表11中的技术状态。可以看出，更深的19层Net-E的性能优于16层Net-D，两者的结合进一步提高了性能。在Caltech-101上，我们的表现与He等人(2014)的方法相比是有竞争力的，但是，他们在voco -2007上的表现要比我们的net差很多。在Caltech-256上，我们的功能远远超过了目前的技术水平(8.6%)。

VOC 2012的动作分类：我们还在PASCAL VOC 2012动作分类任务中评估了我们的最佳表现图像表示(Net-D和Net-E特征的叠加)，该任务包括从单个图像中预测一个动作类，给出一个执行该动作的人的边界框。数据集包含4.6K的训练图像，分为11个类。与VOC 2012目标分类任务类似，使用mAP测量性能。我们考虑了两种训练设置:(i)计算整个图像上的ConvNet特性，并忽略提供的边界框;(ii)计算整幅图像和所提供的边界框上的特征，并将其叠加得到最终的表示。结果与表12中的其他方法进行了比较。我们的表现在VOC动作分类任务中，即使没有使用提供的边界框，也达到了目前的水平，并且在使用图像和边界框的情况下，结果得到了进一步的改善。与其他方法不同，我们没有合并任何特定于任务的启发式方法，而是依赖于非常深入的卷积特性的表示能力。

其他任务：自从我们的模型公开发布以来，它们一直被研究团体积极地用于广泛的图像识别任务，始终优于更浅层的表示。例如，Girshick et al.(2014)将Krizhevsky et al.(2012)的ConvNet替换为我们的16层模型，实现了目标检测结果的状态。Krizhevsky 在语义分割、图像字幕生成，纹理与材料识别。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2019/11/07 ，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习