前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Source-Free Domain Adaptation for Semantic Segmentation

Source-Free Domain Adaptation for Semantic Segmentation

作者头像
狼啸风云
发布2023-10-07 15:31:16
3790
发布2023-10-07 15:31:16
举报
文章被收录于专栏:计算机视觉理论及其实现

摘要

无监督域自适应(UDA)可以解决基于卷积神经网络(CNN)的语义分割方法严重依赖于像素级注释数据的挑战,这是劳动密集型的。然而,这方面现有的UDA方法不可避免地需要完全访问源数据集,以减少模型自适应过程中源域和目标域之间的差距,这在源数据集是私有的真实场景中是不切实际的,因此无法与训练有素的源模型一起发布。为了解决这个问题,我们提出了一种用于语义分割的无源领域自适应框架,即SFDA,其中只有经过训练的源模型和未标记的目标领域数据集可用于自适应。SFDA不仅能够在模型自适应过程中通过知识转移从源模型中恢复和保存源领域知识,而且能够从目标领域中提取有价值的信息用于自监督学习。为语义分割量身定制的像素级和补丁级优化目标在框架中无缝集成。在众多基准数据集上的广泛实验结果突出了我们的框架相对于依赖源数据的现有UDA方法的有效性。

1、介绍

 语义分割一直是一项关键的计算机视觉任务,旨在将场景图像分割和解析为与语义类别相关的不同图像区域。它对于准确理解视觉场景至关重要,可应用于许多潜在应用,如自动驾驶、视觉基础和图像编辑。但当前分割技术的成功取决于大规模密集标记的数据集,这些数据集在现实中收集起来的成本高得令人望而却步。例如,手动注释城市景观图像大约需要90分钟。解决这个问题的直观方法是将在源数据集上训练的现有模型中的知识转移到未标记的目标域。然而,它往往会受到域偏移问题的阻碍,该问题是由源域和目标域中的各种数据分布引起的。

 为了解决这一问题,提出了用于语义分割的无监督域自适应(UDA),并在未标记的目标域上推广了训练有素的模型,避免了昂贵的数据注释。所有的方法都假设训练有素的源模型和标记的源数据集都是可用的。这是因为在适应训练过程中,源数据在保留有价值的源知识和迭代减少跨领域差异方面发挥着至关重要的作用。然而,在自动驾驶等一些关键领域,源数据集可能是私有的和商业的,因此只有源模型和未标记的目标数据集可用。由于缺乏对源域的监督和目标伪标签的不确定性,这些UDA方法都无法在这种无源场景中工作。

 有了这些见解,我们提出了一个新的但重要的问题——用于语义分割的无源域自适应,其中只有经过训练的源模型和未标记的目标域数据集可用于自适应。最近,开发了少量无源UDA方法来解决图像分类的类似问题。然而,图像级计算机视觉任务只是将标签与整个图像相关联,这与图像分割有根本不同,图像分割属于像素级任务,每个像素都与语义标签相关联。如图1所示,一个目标图像的伪标签包含在不同分布上移动的多个类。因此,对于上述方法来说,利用集群进行每个类的自适应是非常重要的。考虑到没有源数据就无法保存和利用源领域知识,因此我们试图通过引入最初用于模型压缩的无数据知识提取方法来恢复和转移源领域知识。

我们的主要贡献可概括如下: •我们提出了一种新的SFDA框架,该框架将知识转移和模型自适应相结合,而不需要任何源数据和目标标签。据我们所知,这是首次尝试解决用于语义分割的无源UDA问题。 •专门为分割设计了一种新的双注意力提取机制,以转移和保留上下文信息,并引入了域内补丁级自我监督模块,以利用目标域中的补丁级知识。 •我们展示了我们的框架在合成到真实和跨城市细分场景方面的有效性。特别是,在无源环境下,它甚至可以通过最先进的源驱动UDA方法获得有竞争力的结果。

2、相关工作

用于语义分割的UDA

现有的UDA分割方法主要可分为三类。为了减少跨领域差异,许多UDA方法通过引入对抗性学习来关注分布一致性。受图像到图像翻译的启发,提出了一类基于源数据的UDA方法来生成目标图像。此外,使用目标伪标签进行自我监督是一种相对简单但有效的方法,但它需要源数据进行监督。总之,上述所有用于分割的UDA方法都假设密集注释的源数据集在自适应过程中是可用的,而忽略了实践中的数据隐私和不可访问性问题。据我们所知,我们是第一个考虑图像分割的无源无监督域自适应问题的人。

知识蒸馏 知识蒸馏最初是为了将知识从大型教师网络转移到紧凑的学生网络而开发的。从那时起,各种KD方法被提出用于模型压缩、领域自适应和多模态学习。最近,由于不可避免的数据隐私问题,无数据知识提炼引起了人们的极大关注。激活记录用于重建训练样本,以训练紧凑的学生模型。类似地,存储在批量归一化(BN)层中的批量归一化统计(BNS)也可以用于重建训练样本。大多数无数据KD方法都是基于生成对抗性网络的。他们都专注于生成虚假样本,用于在没有原始训练数据的情况下将知识从教师网络转移到学生网络,主要是在分类任务中。在这项工作中,我们将无数据的知识提取方法扩展到分割,并解决了无源领域自适应的挑战。

3、方法

3.1、标记和动机

 对于现有的源驱动UDA方法,给出了一个带注释的源数据集

,一个未标记的目标数据集

和一个训练有素的源模型

S
S

。请注意,

x_s
x_s

x_t
x_t

分别对应于源和目标样本,

y_s
y_s

是对应源图像的标签。

H
H

W
W

是图像的高度和宽度。目标模型T通常与源模型共享参数,但在自适应期间将目标数据作为输入。源代码驱动的UDA方法通常由以下公式表示:

 其中LSEG是用于保存源域知识的监督训练损失,通常是交叉熵或焦点损失。LT-AR是基于伪标签的目标域的自监督损失,如熵最小化、最大平方损失(MaxSquare)等。在这项工作中,我们采用最大平方损失作为自适应过程中的辅助,定义为:

其中,

是一个目标图像像素的类别

c
c

的概率,

c
c

是语义类别的数量。

在无源场景中,带注释的源数据集不可用,因此保存源知识的监督学习过程将中止。幸运的是,源领域知识已经被永久地保留在源模型中。我们可以将无源UDA视为一个知识转移和适应问题,如图2所示。橙色或蓝色椭圆区域表示源域和目标域的特征空间。由于学习偏差,源模型只能在源域中很好地工作,因此有必要在自适应过程中估计源域(标记为绿色椭圆)并将知识转移到目标模型。在上述原理分析的基础上,提出了一种结合知识转移和自适应的无源UDA语义分割框架。

 我们将具有标签的估计源数据集表示为

(对应于图2中的绿色椭圆)。图3显示了我们的SFDA框架,其中包括知识转移阶段和模型适应阶段。请注意,为了保留和转移源模型中保留的源域知识,我们需要复制源模型

并在训练中固定其参数。在转移阶段,生成器

合成假样本,用于将源知识从固定源模型

转移到

。此外,引入了域内补丁级自监督模块(IPSM),以利用补丁级伪标签中的信息,提高目标数据的利用率。我们在下文中详细介绍了两阶段的SFDA。

3.2、无源域知识迁移

3.2.1、源域估计

 为了估计不可用源域,生成器

被设计为生成伪样本

,其中随机噪声

作为输入,从高斯分布中提取:

在BNS引导的无数据知识提取[48]之后,估计的源样本的特征分布应该满足源分割模型的批量归一化统计。因此,我们对生成器应用BNS约束:

与[48]不同的是,在我们的框架中,获得假样本的生成方法更有效、更灵活,由于生成对抗性知识转移机制,避免了耗时的噪声优化过程。具体来说,对于分割任务,我们构建了一个语义感知的对抗性知识转移机制,基于源模型和目标模型之间的差异。为了实现这一点,我们首先为三个模型制定了三种不同的差异度量。固定模型

和共享源模型

之间的输出空间差异被公式化为平均绝对误差(MAE):

 其中

分别是来自

的合成数据

的预测输出。

 其中,

是用于计算相应特征的双重注意力图的双重注意力模块(DAM)。M是注意力图的大小。

是以合成数据

作为输入的分割模型

的主干特征提取器。

 类似地,我们可以将源模型和目标模型之间的差异定义如下:

 其中

获得以目标数据

作为输入的从目标模型的主干提取的特征图。S和R是从特征图中提取的空间和通道注意力图,将在第3.2.2节中进行定义。这个等式背后的动机是,由于缺乏必要的先验信息,生成器生成的数据不足以恢复源数据的上下文关系。幸运的是,未标记的目标数据在一定程度上与真实的源数据具有相似的领域不可知语义结构。这为生成器合成假图像提供了宝贵的知识。因此,我们采用Kullback-Leibler(KL)散度来测量伪源和目标数据的双注意力图的分布距离,然后在优化中使其最小化。

3.2.2、双Attention模型

 在本节中,我们将阐明双重注意力模块。以x为输入的分割网络主干提取的特征图表示为

。注意,

H_1
H_1

W_1
W_1

W_1
W_1

仅在该子部分中分别是特征图的高度、宽度和通道。包括空间注意力和通道注意力的双重注意力模块如图4所示。与不同的是,我们将特征

F
F

输入到卷积层中以生成新的特征,因为DAM只是为了捕获用于蒸馏的空间和基于通道的长程依赖关系。

具体来说,我们首先重塑

F
F

,使

,其中

是像素数。

F
F

的转置。因此,我们通过以下公式计算空间注意力映射

: 

 其中

s_{ji}
s_{ji}

测量第

i
i

个位置对第

j
j

个位置的影响。

  类似地,通道注意力映射

可以通过以下公式计算:

其中

r_{ji}
r_{ji}

测量第

i
i

个通道对第

j
j

个通道的影响。

在获得空间和通道注意力图之后,样本x的双重注意力图可以通过连接两个注意力图来计算:

 为了将空间注意力图和通道注意力图变换为相同的形状,将它们分别乘以原始特征

F
F

3.2.3、目标函数

 通过这种方式,我们介绍了无源领域知识转移(SFKT)的所有必要组件。我们框架中的生成器旨在合成有价值的假样本,以便将源知识从源模型转移到目标模型。首先,它应该使假样本符合BNS约束。其次,生成器通过最大化源模型和目标模型之间的差异来探索差异空间,以推动对新知识的搜索。此外,最好通过最小化

来利用目标域中的先验注意力信息。因此,生成器的总目标函数被公式化为:

其中,α、β和τ是用于平衡MAE损耗和两个DAD损耗的超参数。

目标模型从两个方面学习:

目标伪标签和源模型的两级知识。我们希望,在减少目标域的不确定性的同时,目标还保留源域信息,通过最小化与源模型的输出和注意力差异(两级)来指导自适应学习。目标模型在知识转移阶段的目标函数如下:

 3.3、自监督模型适配

由于生成器很难保证持续准确地恢复和传输覆盖源域的信息,我们从自我监督机制中汲取灵感,并考虑利用目标模型输出的宝贵信息作为目标数据。通过分析初始目标模型在目标域上的预测,我们发现它在大多数补丁上的预测是正确的,其中有有用的监督信息用于学习不确定或错误的补丁。

为了利用基于UDA的分割中的伪标签,Pan等人[34]提出了一种无监督的域间和域内自适应方法,该方法首先使用基于熵的排序函数将目标域划分为易分割和难分割,然后通过对抗机制减小域间或域内差距。然而,在现实中,源域和目标域之间的差距太大,这使得很难在目标域中筛选出足够数量的简单拆分来进行域内监督。更糟糕的是,源域在我们的设置中不可用。

3.3.1、Patch级的自监督模型

 为了解决上述问题,我们提出了一种新的基于熵的域内补丁级自监督模块,以在模型自适应阶段利用目标域伪标签,如图5所示。考虑到在城市景观分割场景中,不同街景图像的同一区域通常存在相似的模式或对象。因此,我们可以在补丁级别利用正确的信息,这不仅扩展了样本,还减轻了整个伪标签的不确定性。为了缓解由于域间隙过大而导致的分离易样本和难样本的困难[34],我们将每个样本根据其位置划分为K×K类子图像或块,标签为

。在预测中,熵较低的斑块可能具有较高的可信度和准确性。因此,通过熵排序将补丁分为易组和难组。

 我们将目标数据

中每个补丁

x_{t,k}
x_{t,k}

的高度和宽度表示为

H_2=H/k
H_2=H/k

W_2=W/k
W_2=W/k

,目标模型输出的相应预测图为

C
C

既是语义类别的数量,也是预测图的通道。补丁

x_{t,k}
x_{t,k}

的概率图

p_{t,k}
p_{t,k}

可以通过softmax函数来计算。然后,目标图像xt的每个预测图

p_{t,k}
p_{t,k}

的平均熵得分定义为: 

 在包含

B
B

(偶数)个目标图像

的批中,在相同位置或类别的块熵图上执行熵排序。每个类中具有较低熵的B/2预测图被分配给容易组

,而另一个B/2被分配给难组

。该过程如下所示:

 在获得硬补丁和易补丁的预测图后,我们训练鉴别器D。D旨在区分易补丁和硬补丁,而T被训练为从硬补丁的一侧欺骗D,以减少补丁之间的间隙。优化T和D的对抗性学习损失由下式给出:

3.3.2、目标函数

 在此基础上,我们通过添加对抗性损失w.r.t.IPSM和自我监督损失来扩展方程12中的目标函数。因此,我们定义了以下目标函数,以训练具有共享权重的目标和源模型(即T和S):

  其中γ是控制对抗性损失的超参数。补充材料中介绍了详细的训练算法。

4、实验

4.1、实验设置

4.1.1、数据集和评估标准

数据集

我们在两种不同的设置下评估了我们的SFDA语义分割框架:合成到真实和跨城市。对于前一种设置,我们遵循先前的工作[55,41],将Cityscapes[8]视为目标域,将GTA5[36]或SYNTHIA[37]视为源域。对于后一种设置,Cityscapes数据集用作源域,NTHU[44]数据集用作目标域。

Cityscapes[8]提供了3975张带有细粒度分割注释的图像。合成数据集GTA5[36]包含24966张注释图像,分辨率为1914×1052,取自GTA5游戏。SYNTHIA[37]被用作另一个合成数据集,包含9400个完整注释的1280×760 RGB图像。NTHU数据集[44]包含四个不同的城市:里约、罗马、东京和台北。

度量

使用并集交集(IoU)比率和像素精度(PA)对每个类别的语义分割性能进行评估。对于整个测试集,我们计算并集上的平均交集(mIoU)和平均像素精度(mPA)。

4.1.2、实施细节

我们的实验中采用了两种分割网络。一种是在ImageNet上预训练ResNet-50的DeepLabV3,另一种是预训练VGG-16主干的SegNet。考虑到编码器-解码器架构中的SegNet,DAM连接在编码器后面。在计算目标图像的双注意力图时,在DAM之前应用自适应池。对于生成器G和鉴别器D,我们使用类似于[35]的架构,但将D扩展到条件版本。D的输入通道被设置为与预测图的输出通道一致。G的潜在空间维度和D的标签嵌入维度都是256。发生器和鉴别器的结构在补充材料中有详细说明。 我们在两个GTX 2080Ti GPU上使用PyTorch工具箱实现了所提出的框架。为了训练分割网络,我们使用具有Nesterov加速度的随机梯度下降(SGD)优化器,其中动量为0.9,权重衰减为10-4。初始学习率设置为2.5×10−4,并使用[4]中提到的0.9次方的多项式衰减来降低。为了训练生成器和鉴别器,采用了初始学习率为0.1的Adam优化器[23]。由于生成高分辨率图像的困难,我们将所有数据集的图像大小调整为512×256。得益于全卷积分割网络,我们可以将合成样本的分辨率设置为256×128,这比目标数据低,但足以转移知识。为了获得用于适应的高质量源模型,我们在Cityscapes上预训练了30个时期的源模型,而在GTA5或SYNTHIA上预训练的是20个时期。在无源自适应中,目标模型、生成器和鉴别器在目标域上联合训练120个时期,批量大小为8。 对于超参数,默认情况下,α和β分别设置为1.0和0.5。值得注意的是,我们设置τ=β来平衡两个DAD损失。如果没有特别指出,我们在所有实验中都将γ设置为0.01。补丁的数量,即IPSM中的K,从{3,4,5}中选择是合理的。

4.2、比较

合成到真实的适应:

(1)GTA5→ 城市景观

图6显示了GTA5的定性结果→ 城市景观。为了展示SFKT的多功能性和IPSM的贡献,我们在架构中删除了IPSM部分,即“SFDA(w/o IPSM)”。很明显,即使没有源数据,我们的方法也优于传统的MinEnt方法。此外,随着IPSM的增强,我们的完整方法可以通过自我监督来弥补某些领域的错误,如黄色虚线框所示。我们在表1中给出了适应结果,并与最先进的源驱动领域适应方法进行了比较。

(2) SYNTHIA → Cityscapes.

根据[43,55]中的评估设置,我们在表2中分别给出了IoU和mIoU w.r.t.16类和13类分割的结果。我们的架构与DeepLabV3一起使用,在IPSM的帮助下甚至优于源代码驱动的UDA方法。此外,我们的方法在小物体分割方面取得了有竞争力的性能,如交通灯、交通标志和摩托车。

跨城市适配

为了证明我们的方法对较小领域转移的有效性,我们在城市景观上进行了实验→ NTHU采用DeepLabV3架构。表3显示了我们的方法与其他源代码驱动的UDA方法的比较。与最好的UDA方法MaxSquare相比,我们的IPSM方法在四个城市数据集上取得了有竞争力的性能。此外,我们通过SFKT将经过训练的源模型中的源域知识提取到一个新的模型中,并在不进行自适应的情况下在目标域上对其进行评估,如表中所示为“仅转移”。结果表明,我们通过SFKT获得的知识对目标仍然有价值,尽管效果不如“仅来源”。

4.3、消融研究

为了显示SFKT中成分的详细贡献,我们在三个数据集上进行了消融实验,如表4所示。结果表明,源自由域知识转移中的DAD损失比常用的BNS损失更有效,并且它们的融合可以进一步提高性能。 在知识转移阶段合成的语义图和假样本的可视化如图7所示。左两列是生成器合成的假样本和DeepLabV3在Cityscapes上预训练的相应语义图。右边的两列是在没有DAD或BNS损失的情况下预测的几个语义图。一方面,输出的语义图与没有DAD的真实世界街景结构相似,但很难关注一些小对象或重新定义的分割。另一方面,生成器捕获了两个模型之间的差异,但不能在不丢失BNS的情况下保持源域的原始语义分布,这对分割任务至关重要。尽管假样本无法被人类识别,但它们在卷积神经网络中与源域数据具有相似的表示和输出。因此,伪样本成为传递源领域知识的关键。

4.4、超参数分析

  首先,我们讨论了DeepLabV3在GTA5上的α和β(τ=β)、MAE损失和DAD损失的权重的影响→ 城市景观。给定β=0.5,我们将α从0.1调整为2.0,结果如表5所示。由于当由目标伪标签监督时,源预测输出的MAE损失LMAE类似于目标分割损失LT-AR,因此α应该接近1.0。否则,将与LMAE产生分歧,从而导致适应过程中的偏见。

类似地,给定α=1.0,我们将β从0.01调整为1.0,结果如表6所示。与α不同,β控制着中间层中DAD损失的权重,因此它们应该小于α。如果过多的权重被分配给DAD损失,它们将限制中间层的学习能力。

 我们在图8中展示了参数K∈{1,2,··,5}的灵敏度分析,从中我们观察到,过大或过小的K不适合IPSM,3到5是合理的。请注意,当K=1时,表示训练中不采用IPSM。

5、结论

 在本文中,我们提出了一种新的用于语义分割的无源领域自适应框架(SFDA)。它旨在通过知识转移从固定源模型中保留源领域知识。具体而言,设计了一种双注意力提取方法来捕获和传递用于分割任务的像素级语义信息。此外,在模型自适应过程中,引入了域内补丁级自监督机制,以利用目标域中补丁级伪标签的宝贵知识。我们进行了大量的实验和消融研究,以验证所提出的框架在不同分割任务上的有效性,表明它与现有的源驱动UDA方法相比表现良好。然而,由于生成假样本合成的限制,我们的方法不支持高分辨率图像分割任务,这将在未来的工作中解决。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 1、介绍
  • 2、相关工作
  • 3、方法
    • 3.1、标记和动机
      • 3.2、无源域知识迁移
        • 3.2.1、源域估计
        • 3.2.2、双Attention模型
      • 3.2.3、目标函数
        •  3.3、自监督模型适配
        • 3.3.1、Patch级的自监督模型
        • 3.3.2、目标函数
    • 4、实验
      • 4.1、实验设置
        • 4.1.1、数据集和评估标准
        • 4.1.2、实施细节
      • 4.2、比较
        • 4.3、消融研究
          • 4.4、超参数分析
          • 5、结论
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档