前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Unsupervised Pixel–Level Domain Adaptation with Generative Adversarial Networks

Unsupervised Pixel–Level Domain Adaptation with Generative Adversarial Networks

作者头像
狼啸风云
发布2023-10-07 15:25:39
2100
发布2023-10-07 15:25:39
举报

摘要

 对于许多任务来说,收集注释良好的图像数据集来训练现代机器学习算法的成本高得令人望而却步。一个吸引人的替代方案是渲染合成数据,其中地面实况注释是自动生成的。不幸的是,纯基于渲染图像训练的模型往往无法推广到真实图像。为了解决这一缺点,先前的工作引入了无监督的领域自适应算法,该算法试图在两个领域之间映射表示或学习提取领域不变的特征。在这项工作中,我们提出了一种新的方法,以无监督的方式学习像素空间中从一个域到另一个域的转换。我们基于生成对抗性网络(GAN)的模型使源域图像看起来像是从目标域绘制的。我们的方法不仅产生了合理的样本,而且在许多无监督的领域自适应场景中以很大的优势优于最先进的方法。最后,我们证明了适应过程可以推广到训练过程中看不到的目标类。

1、介绍

 大型且注释良好的数据集,如ImageNet、COCO和Pascal VOC,被认为对推进计算机视觉研究至关重要。然而,创建这样的数据集的成本高得令人望而却步。一种替代方案是使用合成数据进行模型训练。使用游戏引擎或渲染器生成几乎无限量的标记数据一直是计算机视觉的长期目标。事实上,某些研究领域,如机器人任务的深度强化学习,实际上需要在合成领域训练模型,因为在现实世界环境中训练可能过于昂贵。因此,人们对在合成领域训练模型并将其应用于现实世界环境重新产生了兴趣。不幸的是,在合成数据上天真训练的模型通常不会推广到真实图像。

 这个问题的解决方案是使用无监督的领域自适应。在这种情况下,我们希望将从我们已经标记了数据的源域学习到的知识转移到我们没有标记的目标域。先前的工作要么试图确定从源域的表示到目标域的表示的映射,要么试图确定两个域之间共享的域不变表示。尽管这些方法已经显示出良好的进展,但它们仍然与仅在目标领域训练的纯监督方法不一样。

 在这项工作中,我们训练了一个模型,以改变源域的图像,使其看起来像是从目标域采样的,同时保持其原始内容。我们提出了一种新的基于生成对抗性网络(GAN)的架构,该架构能够以无监督的方式学习这种转换,即不使用来自两个域的对应对。与现有方法相比,我们的无监督像素级域自适应方法(PixelDA)具有许多优势:

与任务特定架构的解耦:

在大多数领域自适应方法中,领域自适应过程和用于推理的任务特定架构是紧密集成的。如果不重新训练整个领域自适应过程,就无法切换模型的特定任务组件。相反,因为我们的PixelDA模型在像素级别将一幅图像映射到另一幅图像,所以我们可以改变任务特定的架构,而无需重新训练域自适应组件。

跨标签空间的泛化:

因为以前的模型将域自适应与特定任务相结合,所以源域和目标域中的标签空间被限制为匹配。相反,我们的PixelDA模型能够处理测试时的目标标签空间与训练时的标签空间不同的情况。

训练稳定性:

依赖于某种形式的对抗性训练的领域自适应方法对随机初始化很敏感。为了解决这一问题,我们结合了在源图像和生成图像上训练的任务特定损失,以及像素相似性正则化,使我们能够避免模式崩溃[40]并稳定训练。通过使用这些工具,我们能够减少相同超参数在我们模型的不同随机初始化中的性能差异(见第4节)。

数据增强:

传统的领域自适应方法仅限于从有限的源数据和目标数据中学习。然而,通过以源图像和随机噪声向量为条件,我们的模型可以用于创建几乎无限的随机样本,这些样本看起来与目标域的图像相似。

可解释性:

PixelDA的输出是一种域自适应图像,比域自适应特征向量更容易解释。

为了证明我们策略的有效性,我们专注于对象分类和姿态估计的任务,其中感兴趣的对象位于给定图像的前景中,包括源域和目标域。我们的方法在一系列对象分类和姿态估计数据集上优于最先进的无监督领域自适应技术,同时生成看起来与目标领域非常相似的图像(见图1)。

2、相关工作

 学习执行无监督领域自适应是一个开放的理论和实践问题。虽然之前有很多工作,但我们的文献综述主要集中在卷积神经网络(CNN)方法上,因为它们在这个问题上具有经验优势。

 无监督领域自适应:

Ganin等人和Ajakan等人介绍了领域对抗性神经网络(DANN):一种经过训练以提取领域不变特征的架构。他们的模型的前几层由两个分类器共享:第一个分类器在提供源数据时预测任务特定的类标签,而第二个分类器被训练来预测其输入的领域。DANN最大限度地减少了与领域类别特定参数相关的领域类别损失,同时最大限度地增加了与两个类别通用参数相关的损失。通过使用梯度反转层,这种最小-最大优化在一个步骤中成为可能。虽然DANN的域自适应方法是使从两个域提取的特征相似,但我们的方法是使源图像看起来像是从目标域提取的。Tzeng等人和Long等人提出了DANN的版本,其中领域分类损失的最大化被最大平均差异(MMD)度量的最小化所取代,该度量是在从每个领域的样本集提取的特征之间计算的。Ghifary等人提出了一种替代模型,其中源域的任务损失与目标域的重建损失相结合,这导致学习域不变特征。Bousmalis等人介绍了一个模型,该模型明确地将每个域专用的组件与两个域通用的组件区分开来。它们利用了每个域的重建损失、鼓励域不变性的相似性损失(例如,DANN、MMD)以及鼓励公共和私有表示组件互补的不同损失。

其他相关技术包括在特征级别上学习从一个域到另一个域的映射。在这样的设置中,在域自适应优化过程中固定了特征提取管道。这已应用于各种非基于CNN的方法以及最近的基于CNN的相关比对(CORAL)算法。

生成对抗性网络:

我们的模型使用以源图像和噪声向量为条件的GANs。最近的其他作品也试图使用以图像为条件的GANs。Ledig等人使用图像调节的GAN进行超分辨率。Yoo等人介绍了通过对模特穿的衣服和衣架上的相应衣服进行训练,从模特穿衣服的图像中生成衣服图像的任务。与我们的工作相反,这两种方法都没有对图像和噪声向量进行条件处理,我们的方法也适用于完全不同的问题空间。刘和Tuzel的工作可能与我们的工作最相似,他们介绍了一对耦合的GAN的架构,一个用于源域,另一个用于目标域,其生成器共享其高层权重,其鉴别器共享其低层权重。以这种方式,它们能够生成相应的图像对,这些图像对可以用于基于仅从噪声生成高质量样本的能力的无监督域自适应。

风格转移:

Gatys等人的热门作品介绍了一种风格转移方法,即在固定内容的同时,将一个图像的风格转移到另一个图像。该过程需要反向传播回像素。Johnson等人介绍了一种前馈式转移模型。他们训练以图像为条件的网络,以产生输出图像,该输出图像在预先训练的模型上的激活类似于输入图像(高级内容激活)和单个目标图像(低级风格激活)。然而,这两种方法都被优化为复制单个图像的风格,而不是我们试图复制整个图像领域的风格的工作。

3、模型

 我们首先在图像分类的背景下解释我们的无监督像素级域自适应(PixelDA)模型,尽管我们的方法不适用于这一特定任务。给定源域中的标记数据集和目标域中的未标记数据集,我们的目标是训练一个从源域推广到目标域的数据分类器。先前的工作使用一个执行域自适应和图像分类的单一网络来执行这项任务,使域自适应过程对更高级的架构来说是特定的。我们的模型将领域自适应过程与任务特定分类过程解耦,因为它的主要功能是自适应源领域的图像,使其看起来像是从目标领域采样的。一旦被采用,任何现成的分类器都可以被训练来执行手头的任务,就好像不需要领域自适应一样。请注意,我们假设域之间的差异主要是低级别的(由于噪声、分辨率、照明、颜色),而不是高级别的(对象类型、几何变化等)。

 更正式地,设

表示来自源域的

N^s
N^s

个样本的标记数据集,设

表示目标域的

N^t
N^t

个样本中的未标记数据集。我们的像素自适应模型由生成函数

,由

参数化,将源域图像

和噪声向量

映射到自适应或伪图像

。给定生成器函数G,可以创建任何大小的新数据集

。最后,给定一个经过调整的数据集

,可以像训练和测试数据来自同一分布一样训练任务特定分类器。

3.1、学习

 为了训练我们的模型,我们使用生成对抗性目标来鼓励

G
G

生成与目标域图像相似的图像。在训练期间,我们的生成器

将源图像

x^s
x^s

和噪声向量

z
z

映射到经适配的图像

x^f
x^f

。此外,该模型由鉴别器函数

扩充,该函数输出给定图像x已从目标域采样的可能性D。鉴别器试图区分生成器生成的“假”图像Xf和来自目标域Xt的“真”图像。请注意,与生成器仅以噪声向量为条件的标准GAN公式不同,我们模型的生成器以噪声向量和源域的图像为条件。除了鉴别器之外,模型还增加了一个类别

为图像

分配任务特定标签

\hat{y}
\hat{y}

我们的目标是优化以下最小最大目标:

其中

\alpha
\alpha

\beta
\beta

是控制损失相互作用的权重。

表示域丢失:

是一种任务特定损失,在分类的情况下,我们使用典型的softmax交叉熵损失:

 其中

y^s
y^s

是源输入

x^s
x^s

的类标签的一个热门编码。请注意,我们使用自适应和非自适应源图像来训练T。当仅在自适应图像上训练T时,可以实现类似的性能,但由于模型的不稳定性,这样做可能需要多次不同初始化的运行。事实上,在没有对来源进行培训的情况下,该模型可以自由地改变课堂分配(例如,第1类变成了第2类,第2类变成了3类等),同时仍然成功地优化了训练目标函数。我们发现,在源图像和改编图像上训练分类器T可以避免这种情况,并大大稳定训练(见表5)。可能使用不同的标签空间(请参见表4)。

 在我们的实现中,G是一个具有残差连接的卷积神经网络,可以保持原始图像的分辨率,如图2所示。我们的鉴别器D也是一个卷积神经网络。方程1的最小-最大优化是通过在两个步骤之间交替来实现的。在第一步中,我们更新鉴别器和任务特定参数

\theta_D
\theta_D

\theta_T
\theta_T

,同时保持生成器参数

\theta_G
\theta_G

固定。在第二步中,我们将

\theta_D
\theta_D

\theta_T
\theta_T

相加并更新

\theta_G
\theta_G

3.2、内容相似损失

 在某些情况下,我们具有关于低级别图像自适应过程的先验知识。例如,我们可以期望源和经调整的图像的色调是相同的。在我们的情况下,对于我们的一些实验,我们在黑色背景上渲染单个对象,因此,我们期望根据这些渲染改编的图像具有与等效源图像相似的前景和不同的背景。渲染器通常提供对z缓冲区掩码的访问,使我们能够区分前景像素和背景像素。这种先验知识可以通过使用额外的损失来形式化,该损失仅针对前景像素惩罚源图像和生成图像之间的大差异。这种相似性损失使生成过程基于原始图像,并有助于稳定最小最大优化,如第节所示。4.4和表5。然后,我们的优化目标变为:

 其中,α、β和γ是控制损失相互作用的权重,

是内容-相似性损失。

 许多损失可以以某种有意义的方式将生成的图像锚定到原始图像(例如,L1或L2损失,在预训练的VGG网络的激活方面的相似性)。在我们从渲染图像中学习对象实例分类的实验中,我们使用了掩蔽的成对均方误差,这是成对均方错误(PMSE)的变化。这种损失惩罚的是像素对之间的差异,而不是输入和输出之间的绝对差异。我们的掩码版本计算生成的前景和源前景之间的PMSE。形式上,给定二元掩码

,我们的掩码PMSE损失为:

 其中

k
k

是输入x中的像素数,

是平方L2范数,并且◦ 是哈达玛产品。这种损失允许模型学习再现被建模对象的整体形状,而不会在输入的绝对颜色或强度上浪费建模能力,同时允许我们的对抗性训练以一致的方式改变对象。请注意,损失并不妨碍前景的变化,而是鼓励前景以一致的方式变化。在这项工作中,由于数据的性质,我们对单个前景对象应用了掩蔽的PMSE损失,但可以将其简单地扩展到多个前景对象。

4、评估

 我们在先前工作中使用的对象分类数据集上评估了我们的方法,包括MNIST、MNIST-M和USPS,以及LineMod数据集的变体,LineMod是对象实例识别和3D姿态估计的标准,我们有合成和真实数据。我们的评估由定性和定量组成,使用了许多无监督的领域适应场景。定性评估包括检查我们的方法通过视觉检查生成的图像来学习从源域到目标域的基本像素自适应过程的能力。定量评估包括将我们的模型的性能与以前的工作以及不使用任何领域适应的“仅来源”和“仅目标”基线进行比较。在第一种情况下,我们仅在未更改的源训练数据上训练模型,并对目标测试数据进行评估。在“仅目标”的情况下,我们仅在目标域训练集上训练任务模型,并在目标域测试集上进行评估。我们考虑的无监督领域自适应场景如下所示:

MNIST至USPS:

来自MNIST数据集的10个数字(0-9)的图像被用作源域,来自USPS数据集的相同10个数字的图像表示目标域。为了确保“仅源”和领域自适应实验之间的公平比较,我们在原始60000张MNIST训练图像中的50000张图像的子集上训练我们的模型。剩下的10000张图像被用作“仅来源”实验的验证集。使用USPS的标准分割,包括6562个训练图像、729个验证图像和2007个测试图像。 MNIST至MNIST-M:

MNIST数字表示源域,MNIST-M数字表示目标域。MNIST-M是针对无监督领域自适应而提出的MNIST的变体。它的图像是通过使用每个MNIST数字作为二进制掩码并反转背景图像的颜色来创建的。背景图像是从Berkeley分割数据集(BSDS500)[4]中均匀采样的随机作物。我们所有的实验都遵循[14]的实验方案。我们使用59001个MNIST-M训练示例中的1000个的标签来确定最优超参数。 合成裁剪线型到裁剪线型:

LineMod数据集是一个在杂乱的室内环境中以各种姿势成像的小物体的数据集。我们使用数据集[45]的裁剪版本,其中每个图像的裁剪中心有11个对象中的一个。使用的11个对象是“猿”、“钳工”、“罐头”、“猫”、“司钻”、“鸭子”、“打孔器”、“铁”、“灯”、“电话”和“凸轮”。数据集的第二个组成部分由这11个物体的CAD模型组成,这些物体在黑色背景上呈现出各种姿势,我们称之为合成裁剪线模型。我们将合成裁剪的LineMod作为源数据集,将真实裁剪的LineMod作为目标数据集。我们在109208幅渲染的源图像和9673幅真实世界的目标图像上训练我们的模型进行域自适应,1000幅用于验证,2655幅用于测试的目标域测试集。在这种情况下,我们的任务包括分类和姿态估计。因此,我们的任务-特定网络

以正单位四元数向量

\hat{q}
\hat{q}

的形式输出类

\hat{y}
\hat{y}

和3D姿态估计。任务损失变为:

其中,第一项和第二项是分类损失,类似于方程3,第三项和第四项是四元数的3D旋转度量的对数。ξ是姿态损失的权重,

q^s
q^s

表示样本的真实三维姿态,

。表2报告了需要旋转物体的平均角度(在固定的3D轴上),以从预测姿势移动到地面真实姿势。

4.1、实现细节

所有模型都是使用TensorFlow实现的,并使用Adam优化器进行训练。我们优化了方程1中“MNIST到USPS”和“MNIST-到MNIST-M”场景的目标,以及方程4中“合成裁剪线型到裁剪线型”场景的目的。我们使用来自每个域的32个样本的批次,输入图像以零为中心,并重新缩放为[-1,1]。在我们的实现中,我们让G采用卷积残差神经网络的形式,该网络保持原始图像的分辨率,如图2所示。z是

N^z
N^z

个元素的矢量,每个元素从均匀分布

中采样。它被馈送到一个完全连接的层,该层将它转换为与图像通道分辨率相同的通道,然后作为额外通道连接到输入。在我们所有的实验中,我们使用了一个z,其中

N_z=10
N_z=10

。鉴别器D是一个卷积神经网络,其中层数取决于图像分辨率:第一层是步长1x1卷积(受[33]启发),然后重复堆叠步长2x2卷积,直到我们将分辨率降低到小于或等于4x4。在G的所有层中,滤波器的数量为64,在D的第一层中为64,并在随后的层中重复加倍。该金字塔的输出通过一次激活被馈送到一个完全连接的层,用于域分类损失。对于我们所有的实验,用于任务类别T的CNN拓扑与[14,5]中使用的拓扑相同,可以与以前在无监督领域自适应中的工作相比较。

4.2、定量结果

 我们还没有找到一种普遍适用的方法来优化无监督领域自适应的超参数。因此,我们遵循[5]的实验方案,并使用一小组(~1000)标记的目标域数据作为我们比较的所有方法的超参数的验证集。我们使用相同的协议进行所有实验,以确保公平和有意义的比较。该验证集的性能可以作为无监督领域自适应的令人满意的验证度量的上界。正如我们在第4.5节中所讨论的,我们还在目标域中使用1000个标记示例的半监督环境中评估我们的模型,以确定PixelDA仍然能够改进在这一小组目标标记示例上训练的最初方法。

我们使用上述源数据集和目标数据集的组合来评估我们的模型,并将我们模型的任务架构T的性能与基于相同任务架构的其他最先进的无监督领域自适应技术的性能进行比较。如上所述,为了评估我们模型的有效性,我们首先比较了在每个领域自适应场景的“仅源”设置中训练的模型的准确性。此设置表示性能的下限。接下来,我们在“仅限目标”设置中为每个场景比较模型。这种设置代表了性能的弱上限,因为可以想象,一个好的无监督领域自适应模型可能会改善这些结果,就像我们在“MNIST到MNIST-M”的工作中所做的那样。

这些比较的定量结果如表1和表2所示。我们的方法不仅能够比之前在“MNIST到MNIST-M”场景中的工作取得更好的结果,而且能够超越我们在相同任务类别下能够获得的“仅目标”性能。此外,我们还能够在“MNIST到USPS”场景中实现最先进的结果。最后,PixelDA能够将“Synth Cropped Linemod to Cropped Linemod”场景的平均角度误差与之前的最先进技术相比降低一半以上。

 4.3、定性结果

我们模型的定性结果如图1、3和4所示。在图3和图4中,可以看到生成过程的可视化,以及我们生成的样本在目标域中的最近邻居。在这两种情况下,很明显,我们的方法能够学习将原始源图像调整为看起来可能属于目标域的图像所需的底层转换过程。作为提醒,MNIST-M数字是通过使用MNIST数字作为二进制掩码来反转背景图像的颜色而生成的。从图3中可以清楚地看出,在“MNIST到MNIST-M”的情况下,我们的模型不仅能够从不同的噪声向量z生成背景,而且能够学习这种反演过程。这一点从图中的数字3和6中可以明显看出。在“合成裁剪线模式到裁剪线模式”的情况下,我们的模型能够在RGB通道中对逼真的背景进行采样,并调整前景对象的光度特性。在深度通道中,它能够学习看似合理的噪声模型。

4.4、模型分析

我们提供了一些额外的实验来证明该模型是如何工作的,并探索该模型的潜在局限性。

对已用背景的敏感性

在“MNIST到MNIST-M”和“合成裁剪线条到裁剪线条”场景中,源域都是黑色背景上的数字或对象图像。我们的定量评估(表1和表2)说明了我们的模型使源图像适应目标领域风格的能力,但提出了两个问题:源图像的背景是黑色的重要吗?使用随机选择的背景图像的数据增强策略的成功程度如何?为此,我们进行了额外的实验,用各种背景代替合成裁剪Linemod数据集的默认黑色背景。背景是从ImageNet数据集中随机选择的图像片段。在这些实验中,我们只对源域和目标域使用了图像的RGB部分,因为深度通道没有等效的“背景”。如表3所示,PixelDA能够改进在黑色或随机Imagenet背景上的对象的源图像上训练“仅源”模型。

 模型的概括

模型的两个附加方面与理解其性能有关。首先,该模型实际上是在学习一个成功的像素级数据自适应过程,还是简单地记忆目标图像并用目标训练集的图像替换源图像?其次,该模型是否能够以一种不局限于训练过程中看到的对象类的方式对这两个领域进行推广?

 为了回答第一个问题,我们首先对源图像中的图像运行生成器G,以创建一个自适应的数据集。接下来,对于每个传输的图像,我们在目标训练图像中执行像素空间L2最近邻查找,以确定模型是否只是存储来自目标数据集的图像。如图3和图4所示,其中顶行是来自xs的样本,中间行是生成的样本

,底行是目标训练集中生成样本的最近邻居。从图中可以清楚地看出,模型没有记忆目标训练集中的图像。

 接下来,我们评估我们的模型推广到训练中看不到的类的能力。为此,我们使用来自源域和目标域的图像子集重新训练我们的最佳模型,这些图像子集仅包括“合成裁剪线条”到“裁剪线条”场景的一半对象类。具体而言,在训练过程中观察到物体“猿”、“钳形”、“罐头”、“猫”、“司钻”和“鸭子”,其他物体仅在测试过程中使用。一旦训练了G,我们将其权重相乘,并通过源域的完整训练集,以生成用于训练任务类别T的图像。然后,我们评估T在整个未观察对象集(6060个样本)上的性能,以及所有对象的目标域测试集,以便与表2直接比较。

稳定性研究

我们还评估了模型中不同组成部分的重要性。我们证明,虽然任务和内容的损失并不能提高模型的整体性能,但它们极大地稳定了训练。训练不稳定性是对抗性训练的一个常见特征,需要各种策略来处理模型分歧和模式崩溃[40]。我们通过在不同的随机参数初始化但具有相同超参数的情况下运行每个模型10次来测量模型性能的标准偏差。表5说明了任务和内容的使用——相似性损失降低了运行中的可变性水平。

4.5、半监督实验

 最后,我们在半监督的环境中评估了我们的模型的有用性,在半监督环境中,我们假设我们有少量标记的目标训练示例。我们模型的半监督版本只是在训练过程中使用这些额外的训练样本作为分类T的额外输入。我们从Cropped Linemod中采样了1000个以前任何实验中都没有使用过的例子,并将它们用作额外的训练数据。我们在Cropped Linemod目标域的测试集上,根据以下两个基线评估我们模型的半监督版本:(a)仅在这1000个目标样本上训练分类器,而不进行任何域自适应,我们称之为“仅1000”;以及(b)在这1000个目标样本和整个合成裁剪Linemod训练集上训练一个分类器,而不进行域自适应,我们称之为“合成+1000”。从表6中可以看出,我们的模型能够在训练期间结合一些目标域样本的天真设置的基础上大大改进。我们还注意到,PixelDA利用这些样本实现了比完全无监督设置更好的性能(表2)。

5、结论

 我们提出了一种最先进的无监督领域自适应方法。在一组无监督的领域自适应场景中,我们的PixelDA模型优于之前的工作,在具有挑战性的“合成裁剪线模到裁剪线模”场景中,与之前的最佳结果相比,我们的模型将姿态估计的误差减半以上。他们能够通过使用基于GAN的技术来做到这一点,该技术通过任务特定损失和新内容相似性损失来稳定。此外,我们的模型将领域自适应过程与任务特定架构解耦,并通过模型自适应图像输出的可视化提供了易于理解的额外好处。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 1、介绍
  • 2、相关工作
    •  无监督领域自适应:
      • 生成对抗性网络:
        • 风格转移:
        • 3、模型
          • 3.1、学习
            • 3.2、内容相似损失
              • MNIST至USPS:
          • 4、评估
            • 4.1、实现细节
              • 4.2、定量结果
                •  4.3、定性结果
                • 4.4、模型分析
                  • 4.5、半监督实验
                  • 5、结论
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档