前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ViT终于有挑战 MobileNet 的勇气了 | HSViT用更少的参数,干翻 MobileNet/EfficientNe!

ViT终于有挑战 MobileNet 的勇气了 | HSViT用更少的参数,干翻 MobileNet/EfficientNe!

作者头像
集智书童公众号
发布2024-04-12 20:08:21
2420
发布2024-04-12 20:08:21
举报
文章被收录于专栏:集智书童集智书童

尽管Vision Transformer(ViT)架构在计算机视觉领域越来越受到重视,并吸引了多媒体社区的大量关注,但其对于平移、缩放和旋转不变性的先验知识(归纳偏置)的不足,需要在大规模数据集上进行预训练。此外,ViT和卷积神经网络(CNNs)中越来越多的层和参数,限制了它们在移动多媒体服务中的应用,这主要是由于边缘设备上的计算资源受限。为了缓解上述挑战,本文提出了一种新型的水平可扩展视觉 Transformer (HSViT)。 具体来说,一种新颖的图像级特征嵌入让ViT更好地利用卷积层中固有的归纳偏置。基于此,设计了一种创新性的水平可扩展架构,该架构在减少模型层数和参数的同时,促进了跨多个节点的ViT模型的协同训练和推理。 实验结果表明,在没有大规模数据集预训练的情况下,HSViT比现有最佳方案的top-1准确率高出了多达10%,证实了其在保留归纳偏置方面的优越性。 关注公众号,私信获取项目代码。

1 简介

Vision Transformer, 图像级特征嵌入, 水平扩展, 卷积神经网络, 计算机视觉需要对ViTs进行预训练,因为它们缺乏与卷积神经网络(CNNs)中存在的类似的归纳偏置。特别是,CNNs内在地结合了多种归纳偏置,使它们适合于计算机视觉(CV)任务,如平移不变性、空间局部性和层次化特征学习。

相比之下,ViTs将图像划分为一系列固定大小的不重叠的 Patch ,并为这些 Patch 引入位置编码。这些 Patch Level 的特征嵌入对自注意力层在捕获空间不变性方面提出了挑战。因此,为了利用自注意力在捕获图像特征的长期依赖关系方面的能力,同时保留CNN的归纳偏置,将自注意力机制与卷积层结合是一个有前景的解决方案。

如图1所示,主要有三种混合ViT:卷积 Backbone 网、分层和双分支架构。卷积 Backbone 网和双分支架构通常在ViT模型中添加一个全尺寸的CNN,增加了模型参数数量和计算负担。分层设计通常将多个自注意力层集成到经典的CNN中,以构建分层特征提取结构。虽然自注意力层帮助CNN在图像的不同层次上学习长期的特征依赖关系,但它们打断了CNN的归纳偏置,需要进行预训练。

为了解决上述挑战,本文提出了一种新颖的水平可扩展视觉 Transformer (HSViT)。首先,为ViT设计了一种新的图像级特征嵌入,以更好地利用来自卷积层的归纳偏置。特别是,多个卷积核同时在同一图像上操作,每个卷积核在整幅图像的背景下提取相应的特征。这些特征通过最大池化进行分层下采样到固定大小,尽可能保留归纳偏置。然后,将每个特征图展平为Transformer的嵌入,允许自注意力机制在不同的图像级特征之间构建长距离依赖。

其次,在图像级特征嵌入的基础上,设计了一种新颖的水平可扩展自注意力架构,利用跨节点的计算资源来处理更多特征。水平可扩展架构与其他混合ViT架构的比较如图1所示。具体来说,展平的特征图被划分为几个注意力组,在每个组内计算自注意力。然后,将这些注意力组的预测聚合以产生最终的预测。水平可扩展设计有效地减少了模型的层数和参数数量,如图2所示。

在五个小型图像分类基准数据集上进行的系列实验表明,在没有大规模数据集预训练的情况下,HSViT比最先进的CNN和ViT方案在top-1准确度上提高了高达10%。

本文的主要贡献总结如下:

  1. 提出了一种新颖的图像级特征嵌入方法,该方法在很大程度上保留了卷积层中的归纳偏置,并减轻了预训练的需求。
  2. 设计了一种水平可扩展的自注意力架构,该架构在减少模型层数和参数的同时,更好地利用了跨多个节点的计算资源。
  3. 一系列实验验证了HSViT在保留归纳偏置方面表现更好,并且在top-1准确度上超过了最先进的模型,同时需要的层数和参数更少。

2. Related Work

视觉Transformer:在NLP领域取得成功之后,Transformer及其自注意力机制被引入到计算机视觉中,并在大规模数据集预训练的帮助下,在各种任务中比其CNN对应体取得了更好的性能。然而,由于图像被转换成 Patch Level 的嵌入序列,ViTs中自注意力的复杂度与图像高度和宽度的乘积成二次关系,导致模型参数数量巨大以及显著的计算开销。已经提出了许多方法来解决这一挑战,例如基于窗口的注意力、稀疏注意力、低秩近似、模型剪枝和量化等。所有这些方案都遵循ViT中的 Patch Level 特征嵌入设计。相比之下,本文提出了一种新颖的图像 Level 特征嵌入方法,大大减少了层数和参数数量,并具有卓越的水平可扩展性。

混合视觉Transformer:卷积层被认为有助于ViTs捕捉局部空间模式和学习图像中空间特征的层次表示。因此,已经提出了许多混合视觉Transformer架构,将卷积层与自注意力层集成在一起,如卷积 Backbone、分层和双分支架构,如图1所示。特别是,像DETR这样的卷积 Backbone 网架构,使用全尺寸的CNN Backbone 网提供后续自注意力层所需的基础视觉特征。分层架构通常交替使用自注意力和卷积层形成混合层次结构,旨在充分利用CNN和Transformers的特性,例如CVT、CMT和MobileViT。另一方面,双分支架构主要关注重用和融合自注意力和卷积分支的特征。然而,上述方法要么破坏了CNN的归纳偏置,要么引入了额外的层和参数,给模型训练带来了额外的挑战。相比之下,本文提出了一种新颖的水平可扩展架构,最大程度地保留了CNN中的归纳偏置并减少了训练开销。

分布式机器学习:分布式机器学习通常涉及在大型数据集上训练大型模型,并将工作负载分配到众多节点。模型并行和数据并行是两种主要策略,它们将模型架构或训练数据分配到几个节点,以最大化计算效率和加速训练。此外,还有像联合学习这样的分布式机器学习方法,旨在保护数据隐私,适用于在敏感或去中心化数据集上训练模型。与上述通用分布式机器学习方法相比,本研究特别设计了一种分布式混合ViT架构,以加速计算集群上的训练和推理过程。

3. Proposed Model

这一部分从三个角度阐述HSViT:特征处理流程、图像级特征嵌入以及水平可扩展的自注意力机制。

Feature Processing Pipeline

HSViT的特征处理流程如图3所示。最初,使用多个卷积核从输入图像中同时提取特征,每个卷积核具有一个输出通道。这种设计的理念是,每个卷积核捕捉到一种特定的特征,许多这样的卷积核共同构成了进行最终预测所需的全局特征图。因此,将卷积核分组并在集群的不同节点上计算,以更好地利用集群上的计算资源并提取尽可能多的特征。

假设集群中有

K

个节点,每个节点处理

N

个特征,那么集群处理的总特征数为

K\times N

。图3展示了

K=3

的情况。在池化层的帮助下,每个核的特征图被

Q

下采样并展平为一个图像 Level 的特征嵌入。如图3所示,将大小为

3\times H\times W

的图像通过

Q=2

进行下采样后,图像 Level 的特征嵌入的大小变为

3N\times H/2\times W/2

由于每个嵌入包含了图像中特定特征压缩的空间关系,因此很容易将图像 Level 的嵌入划分为非重叠的注意力组。如图3所示,特征嵌入被划分为3个注意力组,每个组的形状为

N\times H/2\times W/2

。与ViT中的设计相似,每个注意力组添加一个CLS标记用于预测。

因此,每个注意力组拥有形状为

(1+N)\times H/2\times W/2

的标记。在

K

个节点在它们各自的注意力组中计算自注意力后,生成的CLS标记通过平均池化进行聚合,并输入到一个全连接(FC)层进行最终预测。

Image-Level Feature Embedding

为了验证图像级特征嵌入的想法,可视化了卷积层后的特征图,如图4所示。特别是,每一行是一个输入图像及其对应的被送入注意力组的特征图。在实验中,卷积特征图被划分为16个注意力组。然而,由于篇幅限制,图4中只展示了前12个特征图。可以观察到,卷积层使得原始图像中的特征从

64\times 64

下采样到

8\times 8

,同时保持了关键特征的相对位置。

如图4中的行A、B和C所示,不同的注意力组关注同一图像的不同方面。例如,特征图A1和A2主要关注泰迪熊的脸部,而特征图A3、A7和A8主要关注耳朵、手臂和腿。此外,注意力分别关注显著物体和背景,如B3和B12所示。这表明HSViT有效地以分布式方式利用卷积特征,更多的注意力组有助于构建更多独特的细节和上下文。

图4中的行C、D和E显示,卷积层是移位不变和旋转不变的,因为特征图准确地反映了增强图像中关键特征的相对位置。在没有将特征图划分为块或用额外的位置嵌入编码的情况下,图像级特征嵌入帮助每个注意力组理解其特征图上的特定特征。例如,在图4中,C2、D2和E2说明卷积层准确地提取了狗的面部特征,帮助注意力组2专注于编码这一狗脸特征,并较少关注上下文。同样,C9、D9和E9表明狗鼻特征被注意力组9激活和编码的概率很高。

Horizontally Scalable Self-Attention

如图1所示,HSViT中的水平可扩展设计(d)与传统的卷积 Backbone 网络(a)、分层(b)和双分支(c)设计不同。特别是,水平可扩展设计采用了大量的小型卷积层和自注意力层同时提取特征,这使得HSViT能够通过一种类似投票的机制进行最终预测。如图3所示,在每个注意力组生成了其预测嵌入(CLS标记)之后,使用平均池化来聚合预测嵌入。

如果大多数注意力组的预测嵌入包含强烈指示图像所属类别的信号,它们将显著影响最终的选择。例如,在图4的A行中,注意力组A1、A2、A5、A6和A11识别出了泰迪熊的脸和耳朵,而A3、A7和A8识别出了泰迪熊的蓬松材料和身体形状。这些对泰迪熊有强烈信号的预测嵌入使得HSViT能够对图像达到泰迪熊类别的最终预测。

由于其分布式特征提取设计,HSViT减少了对极其深层的卷积和自注意力层的需要,缩小了每个卷积和自注意力模块的大小。图1通过绘制比传统架构更小的卷积模块和自注意力模块来说明这种区别。水平可扩展设计的另一个优点是高适应性。在一定的性能成本下,通过减少注意力组(以及相应的卷积核)的数量,容易减少模型大小。这种高适应性使得HSViT能够适应计算资源受限的边缘设备,同时允许它在超级计算机和集群上进行训练。

4. Experiments

本节介绍了关于实施、图像分类性能、消融研究、敏感性分析以及进一步讨论的实验。

Implementation

模型变体:所提出的HSViT方案涉及多个超参数,如卷积核的数量、卷积层、注意力组、卷积层深度和注意力层深度。为了与最先进的方法进行全面比较,设计了三种规模的HSViT模型:HSViT-C2A2、HSViT-C3A4和HSViT-C4A8,其中名称中的数字表示每个模型的卷积块和多头自注意力块的数量。每个卷积块包括两个Conv2d层和一个最大池化层。每个MHSA块包括一个多头自注意力操作。

随着卷积层的加深,需要更多的卷积核来提取更独特的特征。因此,如果有必要,将卷积块的核数设置为64、128、256等。对于所有模型变体,嵌入大小设置为64(由

8\times 8

特征图展平)以使自注意力层获得足够的卷积特征及其相对位置信息。默认情况下,注意力组数量设置为16。表1描述了变体模型的详细构建块设计。

数据集:为了验证HSViT在保持卷积层的归纳偏置方面的有效性,仅使用小数据集从头开始训练模型。特别是,五个图像分类数据集,每个数据集总共包含少于

200,000

个样本,用于评估提出的HSViT的性能,包括CIFAR-10,CIFAR-100,Fashion-MNIST,Tiny-ImageNet 和Food-10。对于不支持小输入尺寸的某些模型,图像大小被上采样以确保适当训练。表2详细说明了数据集的规格。

训练细节:所提出的模型在PyTorch框架上实现。采用AdamW作为优化器,默认学习率为0.001,权重衰减为0.01。通过余弦退火方法调整学习率。所有模型都在Nvidia RTX 4090 GPU上以批量大小为512从头开始训练300个周期。

Image Classification

表3比较了所提出的HSViT模型与最先进的CNN、ViT和混合ViT模型在图像分类性能上的表现。特别是对于CNN,选择了著名的ResNet、EfficientNet和MobileNetv2作为基准模型。经典的ViT模型也被纳入作为 Patch Level 特征嵌入性能的基准。然而,本文没有包含其他ViT变体,因为它们通常需要预训练才能在下游任务上表现良好。与混合ViT模型高度相关,最近引入的MobileViT、EfficientFormer、SwiftFormer和CvT也被包括在内以进行彻底的比较。

与具有类似参数数量的最先进方案相比,HSViT由于更好地保留了卷积层的归纳偏置,获得了更高的top-1准确度。例如,在Tiny-ImageNet上,HSViT-C3A4以2.3M参数实现了56.73%的top-1准确度,超过了SwiftFormer-XS 4.76%(3.1M,51.97%)、MobileViT-XS 2.84%(2.0M,53.89%)和MobileNetV2-1.0 8.66%(2.5M,48.07%)。拥有6.9M参数的HSViT-C4A8在除Fashion-MNIST外的五个数据集上获得了最高的top-1准确度,在Fashion-MNIST上,它与ResNet-50拥有相同的95.92%准确度。

值得注意的是,HSViT-C2A2在没有利用MobileNet中的深度可分离卷积技术的情况下,将模型参数数量减少到了0.8M。这种减少主要是通过减少模型的层数来实现的。然而,从零开始训练时,HSViT-C2A2在五个数据集上的top-1准确度仍然高于CvT-13和CvT-21,这表明即使层数大大减少,HSViT也能更好地保留卷积层的归纳偏置。

可以观察到,某些方案在增加模型大小后,top-1准确度有所下降。例如,在Food-101上,MobileViT-S(5.1M,68.00%)的top-1准确度低于MobileViT-XS(2.0M,75.45%)。在Tiny-ImageNet上,EfficientNet-B3(11.0M,48.85%)不如EfficientNet-B0(4.3M,50.17%)。这种现象发生是因为模型中更深的层或更大的嵌入给训练带来了额外的挑战,尤其是在小数据集上。相比之下,HSViT中的浅层使其能够更容易地被训练,而提出的横向扩展使模型能够通过使用更多的卷积核来学习更多特征。

Ablation Studies

消融自注意力模块:在CIFAR-10和CIFAR-100上,随着自注意力模块的消融,HSViT的top-1准确率有所下降。特别是,如表4所示,在CIFAR-10上,随着卷积块数量的增加(从C2到C4),消融自注意力模块对top-1准确率的影响逐渐减小,从3.28%降至0.72%。然而,在CIFAR-100上这一现象并不明显。尽管C2和C4具有不同数量的卷积块,但消融自注意力模块始终导致top-1准确率下降30%。原因是C4仅凭自身的卷积层就能够从CIFAR-10中提取和聚合特征,从而获得可接受的top-1准确率93.32%。

然而,单独的C4在处理CIFAR-100时,由于类别数量增加到十倍,而每个类别的样本数量减少到十分之一,其特征聚合能力和理解力不足。比较消融自注意力模块后,CIFAR-10和CIFAR-100的top-1准确率绝对下降进一步支持了这一观点。以HSViT-C2A2为例,CIFAR-10的下降为3.28%,而CIFAR-100的下降为29.92%,这表明自注意力模块使HSViT对CIFAR-100特征有了更丰富的理解。

消融卷积模块:从HSViT中消融卷积模块会导致CIFAR-10和CIFAR-100的top-1准确率分别显著下降约30%和36%。这一下降表明图像 Level 的卷积核对于提取后者自注意力模块有用的特征是必要的。此外,卷积模块对top-1准确率的影响始终比自注意力模块更为显著。特别是对于CIFAR-10上的HSViT-C4A8,当消融卷积模块和自注意力模块时,top-1准确率的下降分别为29.31%和0.72%。

这一现象是因为数据不足,使得自注意力模块无法学习关注局部特征,从而高度依赖于卷积层提取局部信息,正如(Zhou等人,2017年)所指出的。然而,自注意力模块的效果也是相当显著的,因为它以少量的参数层提供了对各种特征的有用理解,特别是在分类任务变得更加复杂时,比如CIFAR-100,它能提高top-1准确率。

Sensitivity Analysis

卷积核与注意力组:如图5所示,随着卷积核数量或注意力组数量的增加,CIFAR-10数据集上的top-1准确率也在提升。这一现象与直观感受相符。具体来说,更多的卷积核意味着在卷积层中提取了更多的特征,有助于图像局部细节的区分。另一方面,增加的注意力组数量意味着对提取的卷积特征有了更精细的理解,以及在投票阶段的更多立场,从而使得最终预测更加准确。

然而,一旦卷积核和注意力组数量达到一定阈值,top-1准确率的提升将会趋于平缓,因为模型在其深度给定下已经学习到了足够的特征。例如,如图6所示,当每个注意力组的卷积核数量从16增加到32时,top-1准确率如预期上升,但在达到64后增长变得不再显著。同样,在增加注意力组时,当每个注意力组的卷积核数量超过64时,top-1准确率的提升变得不稳定,在大约87%处达到平台期。

注意力深度与卷积深度:图7说明,更深的注意力模块总是能提升top-1准确率,尽管随着卷积核数量的增加,提升变得不那么明显。这是因为网络深度对于整合和丰富不同层次的特征至关重要,如(Huang et al., 2017)所证明的。值得注意的是,图7显示,一旦自注意力层增加到两层,注意力组数量对top-1准确率的影响最小。例如,当有64个卷积核且只有一个自注意力层时,一个注意力组与两个注意力组之间的top-1准确率差异约为1%。但引入两层自注意力层后,差异下降到0.15%。

这一现象揭示了更深的自注意力模块有助于理解图像 Level 的卷积特征,甚至可以补偿注意力组的减少。图8显示了卷积深度和注意力深度对top-1准确率的不同影响。特别是,更深的注意力模块总是能提升top-1准确率,而更深的卷积模块只在卷积核数量充足时产生积极效果。这一现象是因为第一层的卷积核数量是第二层的一半。当卷积核数量相对较少时,第一层中特征表示能力的不足阻碍了第二层为最终预测提供足够的特征。图8揭示,更深的卷积层、更深的自注意力层以及充足的卷积核数量协同提高了HSViT的性能。

Discussion

大量卷积核被发现会导致高的浮点运算量(FLOPs),尽管HSViT有效地减少了模型参数。然而,像MobileNet那样使用深度可分离卷积进一步降低参数和FLOPs是有前景的。此外,由于水平可扩展的设计,在多个设备上的分布式部署可以进一步减轻这一挑战。

另一个挑战是提高图像级特征嵌入的分辨率以及在大型图像中识别小物体。这不可避免地导致特征图的扩展,并在自注意力模块中引起计算复杂度的二次增长。一种可行的方法是众包,当网络中可用的计算节点数量足够时,将大图像分割成较小的部分,并分布到不同的注意力组(节点)中。

5. Conclusion

本文介绍了一种具有新颖图像 Level 特征嵌入的横向可扩展视觉 Transformer (HSViT)方案。HSViT的设计保留了卷积层的感应偏差,同时有效地减少了模型的层数和参数数量。此外,HSViT为在资源受限设备上联合训练和推理ViT模型提供了一种新颖方法。一系列实验表明,在没有在大规模数据集上进行预训练的情况下,HSViT超越了现有技术水平,证实了其在保持感应偏差方面的优越性。未来的工作包括将HSViT扩展到大规模数据集和其他计算机视觉任务。

参考

[1].HSViT: Horizontally Scalable Vision Transformer.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 集智书童 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 简介
  • 2. Related Work
  • 3. Proposed Model
  • Feature Processing Pipeline
  • Image-Level Feature Embedding
  • Horizontally Scalable Self-Attention
  • 4. Experiments
  • Implementation
  • Image Classification
  • Ablation Studies
  • Sensitivity Analysis
  • Discussion
  • 5. Conclusion
  • 参考
相关产品与服务
联邦学习
联邦学习(Federated Learning,FELE)是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果实现联合建模。该产品兼顾AI应用与隐私保护,开放合作,协同性高,充分释放大数据生产力,广泛适用于金融、消费互联网等行业的业务创新场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档