前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spatial Attention Pyramid Network for Unsupervised Domain Adaptation

Spatial Attention Pyramid Network for Unsupervised Domain Adaptation

作者头像
狼啸风云
发布2023-10-07 15:35:08
2160
发布2023-10-07 15:35:08
举报

摘要

无监督域适配在各种计算机视觉任务重很关键,比如目标检测、实例分割和语义分割。目的是缓解由于域漂移导致的性能下降问题。大多数之前的方法采用对抗学习依赖源域和目标域之间的单模式分布,导致在多种场景中的结果并不理想。为此,在本文中,我们设计了一个新的空口岸注意力金字塔网络来进行无监督域适配。特别的,我们首先构建了空间金字塔表示来获得目标在不同尺度的内容信息。以任务指定的信息为引导,在每个尺度上,我们组合了密集的全局结构表示和局部纹理模式,有效的使用了空间注意力截止。采用这种方式,网络被强迫关注内容信息由区别力的地方来进行域适配。我们在各种由挑战性的数据集上进行了昂贵的实验,对目标检测、实例分割和语义分割进行了域适配,这证明了我们的方法比最佳的方法有了很大的提升。

1、介绍

在过去的几年里,深度神经网络明显的推动了计算机视觉中的若干任务,比如目标检测,实例分割和语义分割。明显得,基于DNN的方法依赖大规模标注的训练数据,并且覆盖不同应用域是困难的。也就是,源域和目标域之间的特征分布(比如,局部纹理,目标外观和全局结构)是不相似甚至是完全不同的。为了避免昂贵和耗时的人工标注,在这种域偏移的场景下,采用无监督域适配来学习跨域的区别表示。

大多数之前的方法尝试采用全局对齐源域和目标域之间整个分布。然而,对各种场景布局和外观变化产生一个统一的适配函数是困难的。最近的方法关注迁移目标实例或者局部块的纹理和颜色统计。为了解决目标检测和实例分割任务中的域适配,基本的方法是目标外接框中有区别的特征,并且尝试在源域和目标域之间对齐他们。然而,目标周围的纹理信息没有被充分的开发,导致一些上镜上不好的结果。同时,对语义分割的一些域适配方法强制两个域的像素或者局部patch的语义一致性,导致目标级模式匹配关键信息的不同。为此,最近的方法关注全局纹理信息和是理解特征的分布对齐,并且基于预先设置权重的全局和局部特征的损失模式来优化模型。然而,这种方法对目标的内容信息是失败的,在有挑战性的场景中不是最优的。

在这篇文章中,我们设计了空间注意力网络(SPANet)来解决目标检测、实例分割和语义分割的无监督域适配。受空间金字塔网络的启发,我们构建了不同尺度特征图的空间金字塔表示,结合了全局(图像级)和局部(感兴趣区域)的语义信息。同时,我们设计了任务指定的空间注意力机制来获得多尺度内容信息。通过这种方式,采用软方式将鉴别的语义区域附加来提取对抗学习的特征。在各种由挑战性的域适配场景中进行了昂贵的实验,比如Cityscape到Foggy Cityscape,PASCAL VOC到Clipart,GTA5到Cityscape。值得一提的是提出的方法在各种任务比如,目标检测、实例分割和语义分割上超过了最佳的方法。例如,我们的SPANet将Cityscape到Foggy Cityscapee的精度提升了3%,对语义分割任务,在GTA5到Cityscape获得了有比较性的精度。

贡献:

(1)、我们提出了一个新的空间注意力金字塔网络来解决目标检测、实例分割和语义分割的域适配任务。(2)、我们开发了一个任务指定的空间注意力金字塔来学习金字塔中多层级语义信息的策略。(3)、在目标检测、实例分割和语义分割的多种有挑战性的域迁移数据集进行了广泛的实验,证明了提出方法的有效性,超过了目前最佳的方法。

2、相关工作

无监督域适配

多种任务上已经提出了各种无监督域适配方法,比如目标检测、实例分割和语义分割。对目标检测,陈等人采用梯度翻转层在图像级和实例级上对源域和目标域的特征进行对齐。Zhu等人采用k-means聚类来最小化不同的域(与目标检测直接相关),并且通过两个域来对齐他们,在目标检测和实例分割中得到了使用。它关注面向图像的对抗对齐损失是全局相似的,通过采用focal loss远离图像是全局不同的。基于堆叠补充损失方法采用源域和目标域的不同层,Shen等人提出了一个梯度分离方法。另一方面,霍夫曼等人在一个新的语义分割网络上采用全卷积域对抗学习执行了一个全局域对齐。Tsai等人通过构建聚类空间发现逐块输出分布的多尺度模式,以此方式来学习源域中块的鉴别特征表示。Luo等人介绍了采用两个不同分类器来强制强制输出空间上类别级的对抗网络局部语义的一致性。然而,之前的方法仅仅考虑两个层上的域适配。不同域他们,本文设计了空间金字塔表示来获取图像内的多层级语义信息以便在源域和目标域之间进行更好的适配。

注意力机制

为了关注大多数有鉴别力的特征,研究者们开发了各种注意力机制。SENet开发了压缩和提取(SE)块来自适应的校正逐通道特征响应。非局部网络在输入特征图中对所有位置计算一个位置的响应作为特征的权重和来获得长范围依赖。通过权重方式SKNet使用softmax注意力来融合不同核尺寸的多种特征图来自适应的调整输入特征图的感受野尺寸。除了主通道注意力,CBAM介绍了通过计算内部空间关系的空间注意力。为了强调域适配中的迁移域,Wang等人使用多种区域层级域鉴别器和单个图像级域鉴别器来分别生成迁移的局部和全局注意力。Sun和Wu等人将图像合成和图像翻译的atrous空间金字塔、级联注意力机制和残差连接结合起来。因为之前的工作已经展示了多层级信息的重要性,我们提出了注意力金字塔来学习更佳的源域到目标域的表示。特别的,我们采用任务指定的信息来指导空间注意力来充分使用不同层级上不同特征图的语义信息。

检测和分割网络

目标检测和分割网络的性能随着深度卷积网络的发展得到了提升。Faster R-CNN是一个目标检测网络,使用区域建议网络(RPN)预测类别无关的粗糙目标建议,然后提取固定尺寸的目标特征来分类目标的类别,并且调整目标的位置。此外,He等人将Faster R-CNN进行了扩展,加入了一个实例分割结果的预测分支。对语义分割,DeepLab-V2方法开发了atrous空间金字塔池化模块来在不同尺度上分割目标。为了公平的比较,我们提出了在相同检测和分割框架上的空间注意力金字塔网络,和之前的适配方法那样。

3、空间注意力金字塔网络

我们设计了一个空间注意力金字塔网络来解决不同的计算机视觉任务,例如目标检测、实例分割和语义分割。首先,我们定义有标签的源域

和无标签的目标域

,在源域和目标域中从属于复杂和标签未知分布。我们的目标是发现源域和目标域的鉴别表示来获得不同任务的各种语义信息和局部模式。SPANet的结构如图1所示。

空间金字塔表示

空间金字塔池化可以通过位置空间Bin来保持空间信息。为了更好的适配源域和目标域,我们开发了一个空间金字塔表示来探索一个图像内的潜在分布。

特比的,如图1所示,特征图

从骨干网络G中提取,其中

分别是特征图的通道数、高和宽。为了提升效率,我们首先将特征图的通道数采用1x1的卷积减少为

,在所有的实验中我们设置C=256。第二使用不同尺寸多平均池化层分别对

\bar{f}
\bar{f}

进行操作。彳亍操作的尺寸为

\{k^n\}^N_{n=1}
\{k^n\}^N_{n=1}

,其中N是池化层的数量。也就是,

\bar{f}
\bar{f}

的每个位置上的尺寸为

k^n
k^n

长方形池化区域下采样到每个区域的平均值,结果产生一个N的池化特征的金字塔

。通过这种方式,每个池化特征

在金字塔中可以编码为图像内目标或者布局的语义信息。

 值得一提的是,所提出的空间金字塔表示与视觉识别的空间金字塔池(SPP)有关[12]。虽然它们有共同的汇集概念,但我们要强调两个重要的区别。首先,我们使用平均池化而不是最大池化来构建空间金字塔表示。它可以更好地捕捉局部图案的整体强度,如边缘和纹理,这在消融研究中得到了证明。其次,SPP将只有几个窗口大小的特征汇集在一起,并将它们连接起来以生成固定长度的表示;而SAP被设计为捕获金字塔中所有级别的多尺度上下文信息。因此,由于计算的复杂性,很难为SPP使用大量不同大小的窗口。

注意力机制

此外,我们整合了空间注意力金字塔策略,以强制网络关注最具歧视性的语义区域和特征图。在空间金字塔结构中引入注意力机制主要有两个优点。首先,特征图的每个空间位置都存在不同的局部模式。其次,金字塔中不同的特征图对语义表示有不同的贡献。具体的学习方法分两个方面介绍如下。

 为了便于突出最具鉴别力的语义区域,基于来自任务特定头部的引导信息(即,目标检测、实例分割和语义分割)来学习金字塔

的空间注意力掩码。对于目标检测和实例分割,引导信息是来自区域建议网络(RPN)分类负责的大小为A×H×W的输出图。它可以根据所有锚A数量的特征图中的位置来预测目标的置信度。也就是说,它对目标的分布进行编码,适用于目标检测和实例分割问题。对于语义分割,引导信息是来自分割头的大小为

的输出图,其中

是语义类别的数量。我们将引导映射表示为

 然后,我们将引导图

和特征图

f
f

连接起来,生成引导特征图

,然后是3个卷积层。引导特征图

对于所有N个尺度是共享的。为了调整空间金字塔中特征图

f_n
f_n

的每个比例,我们在每个级别将

的大小调整为

。空间注意掩码

可以由以下3个卷积层预测。最后,使用softmax函数对

进行归一化以计算空间注意力,

 其中

表示注意力掩码

\omega _n
\omega _n

(i,j)
(i,j)

处的值。因此,我们得到

。如图6所示,2,当n=7时,我们为空间金字塔中的不同特征图提供了一些归一化注意力掩码

\omega _n
\omega _n

的例子。我们可以得出结论,具有不同尺度

k^n
k^n

的特征图关注不同的语义区域。例如,在第四行中,池大小较小(k=3)的特征图更关注海鸥,而池大小较大(k=21)的特征地图则关注帆船和邻近上下文。基于不同的引导信息,

\omega _n
\omega _n

自适应地重新校准特征图

f^n
f^n

中的空间响应。

 另一方面,可以看出,并非所有的注意力掩码都对应于有意义的区域(参见第四行中池大小为k=37的注意力掩码)。受[23]的启发,我们开发了一种动态权重选择机制,以自适应地调整金字塔中特征图的通道权重。为了考虑具有不同大小的特征图,我们使用相应的空间注意力权重

\omega _n
\omega _n

f^n
f^n

归一化为注意力向量

,如下所示:

 其中

i
i

j
j

列举加权特征图

的所有空间位置。因此,对于金字塔中的所有特征图,注意力向量具有相同的大小。给定注意力向量

,我们首先通过元素相加来融合这些向量,即

。然后,创建一个紧凑特征

,以实现批量归一化层对自适应选择的指导,其中

d
d

是紧凑特征

z
z

的维数,并且我们在所有实验中将其设置为

C/2
C/2

。然后,对于每个注意力向量

V^n
V^n

,我们计算信道方向的注意力权重

为:

  其中

是每个尺度的全连通层的可学习参数。我们有

,其中

\phi^n
\phi^n

的第

c
c

个元素。在图2中,我们显示了空间金字塔中每个特征图的相应权重。具体来说,我们计算每个图像中每个尺度的通道关注权重

\phi^n
\phi^n

的平均值。最后,通过通道注意力权重获得融合语义向量

,其中

是潜在空间中的高度嵌入向量,编码不同空间位置、不同通道及其之间关系的语义信息。

 优化

通过最小化两个损失项来训练整个网络,即对抗性损失和任务特定损失。对抗性损失用于确定样本是来自源域还是来自目标域。具体来说,我们使用一个简单的全连接层,基于融合语义向量

计算样本属于目标域的概率

x_i
x_i

。所提出的SAPNet表示为

D
D

。然后,对抗性损失计算为

 其中

y_i
y_i

是域标签(源域为0,目标域为1),

是交叉熵损失函数。另一方面,任务损失

由特定任务决定,即对象检测、实例分割和语义分割。损失计算为

其中

G
G

R
R

分别是网络的骨干和任务特定组件。

y^s_i
y^s_i

是样本i在源域中的基本真值标签。我们有

。以目标检测为例,我们将Faster R-CNN的目标表示为

,它包含目标类别的分类损失和目标边界框的回归损失。总之,总体目标制定为

  其中λ控制任务特定损失和对抗性训练损失之间的权衡。我们使用梯度反向层(GRL)来实现对抗性训练,其中梯度在从D反向传播到G之前被反向。我们首先训练仅具有源域的网络,以避免最初的噪声预测。然后我们用Adam优化器训练整个模型,初始学习率设置为10e−5,然后在70000、80000次迭代时除以10。训练迭代的总次数为90000次。

 4、实验

 我们用PyTorch实现了我们的SAPNet方法,该方法在三个领域自适应任务中进行了评估,包括对象检测、实例分割和语义分割。为了进行公平的比较,在目标检测中使用RoIAlign实现之后,我们将图像的短边设置为600;例如分割和语义分割,我们使用与以前方法相同的设置。为了考虑准确性和复杂性之间的权衡,对于对象检测和实例分割,金字塔级别的数量被设置为N=13,即,我们有空间池大小集K={3,6,9,12,15,18,21,24,27,30,33,35,37}。 注意,我们从初始池大小3×3开始,步长为3,由于特征图的宽度限制,最后两个池大小从{38,41}减少到{35,37}。对于语义分割,金字塔级别的数量被设置为N=9,因为语义分割涉及具有更高分辨率的特征图,即K={3,9,15,21,27,33,39,45,51}。超参数λ用于控制源域和目标域之间的自适应。因此,我们在不同的任务中使用不同的λ。根据经验,我们为相似领域之间的适应设定了更大的λ(例如,城市景观→FoggyCityscapes),并为不同域之间的适应设置较小的λ(例如PASCAL VOC→WaterColor)。我们根据验证集的性能选择λ。

4.1、目标检测的域适配

  对于目标检测任务,我们在3种域转移场景中进行了实验:(1)相似域;(2) 不同领域;以及(3)从合成图像到真实图像。我们在6个领域转移数据集上将我们的模型与最先进的方法进行了比较:Cityscapes[5]到FoggyCityscapes,Cityscapes[5]到KITTI,KITTI到Cityscapes],PASCAL VOC到Clipart,PASCAL VOC到Watercolor,Sim10K到Cityscapes。为了公平比较,我们使用ResNet101和VGG-16作为主干和最后一个卷积层,以实现与[34,36]中类似的域自适应。物体检测的一些定性自适应结果如图3所示。

 城市景观→雾霾城市景观。值得注意的是,我们在最不利的水平上评估了城市景观和雾城市景观之间的模型(模拟衰减系数β=0.02)。具体而言,Cityscapes是源域,而目标域FoggyCityscape(简称Foggy)是使用深度信息从Cityscape中的相同图像渲染的。我们在(6)中根据经验设定λ=1.0。如表1所示,与以前最先进的方法相比,我们的SAPNet平均精度提高了3.0%。具体而言,就个人和汽车类别而言,我们的方法以巨大的优势(分别高出约9%和15%)超过了第二个表现者。

城市景观→雾霾城市景观。值得注意的是,我们在最不利的水平上评估了城市景观和雾城市景观之间的模型(模拟衰减系数β=0.02)。具体而言,Cityscapes是源域,而目标域FoggyCityscape(简称Foggy)是使用深度信息从Cityscape中的相同图像渲染的。我们在(6)中根据经验设定λ=1.0。如表1所示,与以前最先进的方法相比,我们的SAPNet平均精度提高了3.0%。具体而言,就个人和汽车类别而言,我们的方法以巨大的优势(分别高出约9%和15%)超过了第二个表现者。

帕斯卡声码→剪贴画/水彩。此外,我们在不同的领域评估了我们的方法,即从真实图像到艺术图像。根据[34],PASCAL VOC[7]是源域,其中PASCAL VOC 2007和2012训练和验证集用于训练。对于目标域,我们使用Clipart[18]和Watercolor[18]作为[34]中的内容。在ImageNet[6]上预训练的ResNet-101[13]被用作[34,36]之后的骨干网络。我们分别为剪贴画[18]和水彩[18]设置λ=0.1和λ=0.01。如表3和表4所示,我们的模型获得了与SCL[36]相当的结果。

模拟10K→城市景观。此外,我们在合成到真实的场景中评估我们的模型。在[4,34]之后,我们使用Sim10K[19]作为源域,其中包含从计算机游戏《侠盗猎车手5》(GTA5)中收集的10000张训练图像。我们在(6)中根据经验设置λ=0.1。如表5所示,与现有技术相比,我们的SAPNet在AP得分方面提高了3.3%。

 值得一提的是,BDC Faster[34]也使用交叉熵损失进行训练,但性能显著下降。因此,强弱方法[34]调整焦点损失[25]以平衡不同区域。与[34,36]相比,我们提出的注意力机制更有效,因此不再需要焦点丢失模块。

 4.2、分割的域适配

 实例分割

例如,分割任务,我们评估了从Cityscapes[5]到FoggyCityscapes[35]的模型。类似于[45],我们使用VGG16作为骨干网络,并添加了类似于Mask R-CNN[11]中的分割头。从表6中,我们可以得出结论,我们的方法显著优于SCDA[45],即39.4对31.4。自适应实例分割结果的一些可视化示例如图4所示。

语义分割

对于语义分割任务,我们进行了从GTA5[32]到Cityscapes[5]和从SYNTHIA[33]到Cityscapes的实验。在[28]之后,我们使用在ImageNet上预训练的带有ResNet-101主干的DeepLab-v2[1]框架。值得注意的是,用于语义分割的任务特定引导图自然来自形状为Csem×H×W的预测输出,其中Csem是语义类别的数量。如表7和表8所示,我们的方法在doma上实现了与现有技术相当的分割精度

4.3、消融研究

 我们进一步进行了实验来研究SAPNet中重要方面的影响,即任务特定引导图和空间注意力金字塔。自从PASCAL VOC→ 剪贴画,模拟10k→ 城市景观和城市景观→ 雾代表了三种不同的领域转移场景,我们根据物体检测数据集进行消融研究,以进行综合分析。

 任务特定引导的信息

为了研究任务特定引导信息的重要性,我们删除了任务特定引导以生成空间注意力掩码,该掩码表示为“w/o GM”。这样,在第3层中的特征图和任务特定引导信息串联后,第一个卷积层的通道数量减少了(见图1)。然而,由于引导地图的通道数量较小,因此影响可以忽略不计。如表9所示,任务特定指导信息提高了准确性,尤其是对于不同的领域PASCAL VOC和Clipart(42.2对37.1)。我们推测,这种指导可以促进关注领域自适应中最具歧视性的语义区域。 

 空间注意力金字塔

为了研究空间注意力金字塔的有效性,我们构建了SAPNet的“w/o SA”变体,这表明我们去除了图中的空间注意力掩码和全局注意力金字塔。如表9所示,在没有空间注意力金字塔的情况下,表现显著下降。另一方面,随着金字塔中汇集的特征图数量的增加,性能逐渐提高。具体而言,当N=13时,我们使用空间池大小集K={3,6,9,12,15,18,21,24,27,30,33,35,37},当N=7时,K={3,9,15,21,27,33,37};当N=3时,K={3,21,37}。这表明具有深层次的空间金字塔包含了更多用于领域自适应的判别语义信息,我们的方法可以充分利用它。 此外,我们比较了空间注意力金字塔中的平均池化和最大池化操作。我们可以得出结论,平均池在不同的数据集中实现了更好的性能,这证明了平均池在捕捉有区别的局部模式以进行领域自适应方面的有效性。

 通道式注意力

为了验证通道式注意力的有效性,我们进行了两种变体来计算嵌入向量V,其中加权求和

和相等求和

分别表示为“w/CA”和“w/o CA”。结果如表9所示。值得注意的是,对于类似的域(例如,Sim10k到Cityscapes或Cityscape到Foggy Cityscapees),我们在没有渠道关注的情况下获得了非常相似的结果;而对于不同的域(例如,PASCAL到Clipart或PASCAL到Watercolor),我们观察到性能明显下降,即4.5%对2.9%。这可能是因为相似/不相似的域在空间金字塔的每个特征图中共享相似/不同的语义信息。

5、结论

 在这项工作中,我们提出了一个通用的无监督领域自适应框架,用于各种计算机视觉任务,包括目标检测、实例分割和语义分割。在给定目标特定引导信息的情况下,我们的方法可以充分利用空间注意力金字塔中的特征图,这迫使网络专注于最具歧视性的语义区域进行领域自适应。在各种具有挑战性的领域自适应数据集上进行的大量实验证明了所提出的方法的有效性,该方法与最先进的方法相比表现良好。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、介绍
  • 2、相关工作
    • 无监督域适配
      • 注意力机制
        • 检测和分割网络
        • 空间金字塔表示
    • 3、空间注意力金字塔网络
      • 注意力机制
        •  优化
        • 4.1、目标检测的域适配
    •  4、实验
      •  4.2、分割的域适配
        • 4.3、消融研究
        • 5、结论
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档