【深度学习】重大里程碑！VOLO屠榜CV任务，无需额外数据，首个超越87%的模型

黄博的机器学习圈子

发布于 2021-07-07 15:22:08

1K00

代码可运行

文章被收录于专栏：机器学习初学者精选文章机器学习初学者精选文章

运行总次数：0

代码可运行

近来，Transformer在CV领域遍地开花，取得了非常好的性能，指标屡创新高。但Transformer的性能距离最佳的CNN仍存在差距，不由产生出一种Transformer不过如此的感觉。

可是，就在今天，Transformer领域的新秀VOLO打破了Transformer无法打败最优CNN的宿命，成为了ImageNet数据上首个无需额外数据达到87.1%的模型；与此同时，VOLO在下游语义分割任上也创新了新记录，比如Cityscapes数据上的84.3%，ADE20K数据上的54.3%。

标题&作者团队

论文 https://arxiv.org/abs/2106.13112
源码 https://github.com/sail-sg/volo

1摘要

视觉识别任务已被CNN主宰多年。基于自注意力的ViT在ImageNet分类方面表现出了极大的潜力，在没有额外数据前提下，Transformer的性能与最先进的CNN模型仍具有差距。

在这项工作中，我们的目标是缩小这两者之间的性能差距，并且证明了基于注意力的模型确实能够比CNN表现更好。与此同时，我们发现限制ViTs在ImageNet分类中的性能的主要因素是其在将细粒度级别的特征编码乘Token表示过程中比较低效，为了解决这个问题，我们引入了一种新的outlook注意力，并提出了一个简单而通用的架构，称为Vision outlooker (VOLO)。outlook注意力主要将fine-level级别的特征和上下文信息更高效地编码到token表示中，这些token对识别性能至关重要，但往往被自注意力所忽视。

实验表明，在不使用任何额外训练数据的情况下，VOLO在ImageNet-1K分类任务上达到了87.1%的top-1准确率，这是第一个超过87%的模型。此外，预训练好的VOLO模型还可以很好地迁移到下游任务，如语义分割。我们在Cityscapes验证集上获得了84.3% mIoU，在ADE20K验证集上获得了54.3%的mIoU，均创下了最新记录。

2方法

VOLO可以看作是一个具有两个独立阶段的结构。第一阶段多个用于生成细粒度token表示的Outlookers。第二阶段我们部署一系列Transformer block来聚合全局信息。在每个阶段的最开始，使用一个patch embedding模块将输入映射到期望形状大小的的token表示中。

2.1 Outlooker

outlook包括用于空间信息编码的outlook注意力层和用于通道间信息交互的多层感知器(MLP)。给定输入

C-dim

token表示序列

x \in R^{H \times W \times C}

, outlooker可以写成如下:

\tilde{X} = outlookAtt(LN(X)) +X

2.2 Outlook attention

如上图所示，Outlook attention简单，高效，易于实现。它的主要创新点就是:

每个空间位置上的特征足够全面，可以聚集其邻近特征然后生成局部注意力权值;
稠密的局部空间聚合可以高效的编码细粒度信息。

对于每个空间位置

(i,j)

， outlook注意力计算以

(i,j)

为中心的大小为

k \times k

的局部窗口内所有邻近结点的相似度。不同于自我注意力需要一个Query-Key矩阵乘法来计算注意力，outlook直接通过一个简单的reshape操作来简化这个过程。具体来说，输入

每个

C-dim

token使用两个线性层

进行映射得到outlook权重

A \in R^{H \times W \times K^{4}}

, value表示

V \in R^{H \times W \times C}

,然后我们用

V_{\Delta_{i,j}} \in R^{C \times K^{2}}

来表示在以

(i,j)

为中心的局部窗口的所有value:

最后，在

(i,j)

位置的outlook 权重可以直接用作注意力权值，首先可以通过一个reshape操作（

\tilde{A_{i,j}} \in R ^{K^{2} \times K^{2}}

）后接Softmax：

outlook 注意力将特征进行聚集映射，即将同一位置的不同加权值相加得到输出：

下图给出了Pytorch风格的伪代码实现，其中Eqn3，Eqn4, Eqn5对应上面三个公式。

2.4 Multi-Head Outlook Attention

多头Outlook注意力的实现非常简单，假设头数为N。我们仅需调节

W_A

的形状为

W_A \in R^{C\times N \cdot K^4}

。因此，outlook权值与值嵌入被均匀的拆分为N份：

A_n \in R^{H \times W \times K^4}, V_n \in R^{H\times W \times C_N}, n=1,2,\cdots,N, C_N \times N = C

。对于每对

(A_n,V_N)

，Outlook注意力分别计算后并结果拼接构成多头Outlook注意力的输出。

2.5 Discuss

outlook attention继承了卷积和自我注意力的优点。具体如下：

outlook注意力通过度量每对标记表示之间的相似性来对空间信息进行编码，在特征学习方面比卷积更具有参数效率；
outlook attention采用滑动窗口方式，在细粒度级别实现了对标记表示进行局部编码，并在一定程度上保留视觉任务的关键位置信息；
outlook产生注意力权重的方法简单有效。与依赖于query-key矩阵乘法的自我注意力不同，我们的outlook权重可以通过一个简单的reshape操作直接产生，节省计算。具体示例如下：我们比较了在滑动窗口大小为, token大小为上计算参数量：

可以看到，当C=384,K=3,N=6时，因为，

NK^{4}< 2C

，所以outlook attention在计算资源利用上更高效。

3模型架构

主要借鉴了LV-ViT模型，VOLO的具体设置如下：为了获取到细粒度的token表示，在第一阶段，我们首先调整patch嵌入模块，使其在大小为

8 \times 8

的小图像patch上进行标记序列化，而不是

16 \times 16

。然后通过堆叠一系列Outlookers生成更具细粒度特征表达能力的token表示。第二阶段，利用另一个patch embedding 模块对标记进行下采样。然后采用一组Transformer block对全局信息进行编码。我们基于VOLO提出了五个版本: VOLO: VOLO-D1, VOLO-D2,VOLO-D3, VOLO-D4, and VOLO-D5. 具体详细结构及配置信息如表2，表3所示：

4实验结果

我们首先在ImageNet上进行了所提方法的性能对比，然后在下游任务上进行迁移能力对比。

4.1 ImageNet Classification

如上表所示，在不同的模型尺寸水平上，我们提出的VOLO取得了比当前最先进的模型更佳的性能。具体如下：

在不同水平模型下，所提方法均取得了比其他方案更佳的性能；
以VOLO-D1为例，它仅需26.6M参数，在224分辨率即可取得84.2%的top1精度，在384分辨率可以进一步提升到85.2%，显著优化其他同等参数量的模型；
当模型参数量提升到296M，所提方案在ImageNet上达到了87.1%的top1精度，此为无额外训练数下的新记录。也即是说，VOLO-D5是业界首个仅需ImageNet训练数据即可达到87.1%top1精度的模型
所提方案在RealTop1与V2Top1基准上同样取得了最佳指标。VOLO-D4仅需193M参数量即可超过其他模型，包含CaiT-M48与NFNet。
更具体地，所提方法在ImageNetV2上的表现更佳。比如VOLO-D3可以在此前最佳指标的基础上提升0.8%且参数量更少；而VOLO-D5则可以进一步将模型性能提升到78%。