前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Towards Instance-level Image-to-Image Translation

Towards Instance-level Image-to-Image Translation

作者头像
狼啸风云
发布2023-10-07 15:37:21
2280
发布2023-10-07 15:37:21
举报
文章被收录于专栏:计算机视觉理论及其实现

摘要

 非配对图像到图像的翻译是一个新兴的、具有挑战性的视觉问题,旨在学习不同领域中未对准图像对之间的映射。该领域的最新进展,如MUNIT和DRIT,主要集中在首先从给定图像中解开内容和风格/属性,然后直接采用全局风格来指导模型合成新的领域图像。然而,如果目标域图像内容丰富且包含多个不一致的对象,则这种方法会严重导致矛盾。在本文中,我们提出了一种简单而有效的实例感知图像到图像的翻译方法(INIT),该方法在空间上对目标图像采用细粒度的局部(实例)和全局风格。拟议的INIT具有三个重要优势: (1) 实例级的客观损失可以帮助学习更准确的重建,并结合对象的不同属性;(2) 局部/全局区域的目标域所使用的样式来自源域中相应的空间区域,直观上是一种更合理的映射;(3) 联合训练过程既有利于细化粒度,也有利于粗粒度,并结合实例信息来提高全局翻译的质量。我们还为新的实例级翻译任务收集了一个大规模的基准。我们观察到,我们的合成图像甚至可以帮助完成真实世界的视觉任务,如一般物体检测。

1、介绍

 近年来,图像到图像(I2I)翻译在计算机视觉界受到了极大的关注,因为许多视觉和图形问题可以被表述为I2I翻译问题,如超分辨率、神经风格转移、着色等。该技术也适用于相关领域,如医学图像处理,以进一步提高医学体积分割性能。通常,Pix2pix被认为是I2I翻译的第一个统一框架,它采用条件生成对抗性网络进行图像生成,而在训练过程中需要成对的例子。一个更通用且更具挑战性的设置是不成对的I2I转换,其中成对的数据不可用。

最近在这一方向上作出了若干努力,并取得了非常有希望的结果。例如,CycleGAN提出了循环一致性损失,以加强学习过程,即如果通过学习映射将图像转换到目标域,并使用逆映射将其转换回,则输出应为原始图像。此外,CycleGAN假设两个映射的潜在空间是分离的。相反,UNIT假设两个域图像可以映射到共享的潜在空间上。MUNIT和DRIT进一步假设,潜在空间可以分解为共享内容空间和领域特定属性空间。

 然而,到目前为止,所有这些方法都专注于将样式或属性迁移到整个图像上。如图6所示,如图1(1)所示,由于图像中不同空间区域的一致模式,它们在单一风格的场景或相对内容简单的场景中都能很好地工作,而对于具有多个对象的复杂结构图像则不然,因为图像中对象和背景之间的风格视觉差异总是巨大甚至完全不同,如图所示1(2)所示。

 为了解决上述限制,在本文中,我们提出了一种方法,该方法可以使用不同的风格代码分别翻译对象和背景/全局区域,如图所示。1(3),并且仍然以端到端的方式进行训练。我们的方法的动机如图所示。2。我们不使用全局样式,而是使用实例级样式向量,它可以为目标域中的视觉相关对象生成提供更准确的指导。我们认为,对于不同的对象、背景或全局图像,样式应该是多样的,这意味着整个图像的样式代码不应该相同。更具体地说,与这两个领域之间的全局图像翻译相比,从“阳光”到“夜晚”领域的汽车应该具有不同的风格代码。我们的方法通过涉及实例级别的样式来实现这一目标。 给定一对未对齐的图像和目标位置,我们首先应用编码器分别获得中间全局和实例级别的内容和风格向量。然后,我们利用跨域映射通过交换样式/属性向量来获得目标域图像。我们的交换策略将在第3节中详细介绍。我们的方法的主要优点是探索和使用目标级样式,这直接影响和指导目标域对象的生成。当然,我们也可以将全局样式应用于目标对象,以强制执行模型,从而获得更多不同的结果。

总体上,我们的贡献分为三方面:

•我们将I2I翻译问题推进到实例级别,以便通过采用所提出的复合损失,可以在实例和全局级别的属性上利用这些约束。 •我们进行了大量的定性和定量实验,以证明我们的方法可以超越基线I2I翻译方法。我们的合成图像甚至可以有利于其他视觉任务,如通用物体检测,并进一步提高性能。 •我们介绍了一个大规模、多模式、高度多样化的I2I翻译数据集,包含四个领域的约155k幅街景图像。我们的数据集不仅包括域类别标签,还提供了详细的对象边界框注释,这将有助于解决实例级I2I翻译问题。

2、相关工作

图像到图像翻译

 I2I翻译的目标是学习两个不同领域之间的映射。Pix2pix首次提出使用条件生成对抗性网络来对从输入到输出图像的映射函数进行建模。受Pix2pix的启发,一些作品进一步将其改编为各种相关任务,例如语义布局→ 场景,草图→ 照片等。尽管使用很普遍,但这些方法的主要缺点是它们需要成对的训练示例,并且输出是单模态的。为了产生多模式和更多样的图像,BicycleGAN鼓励潜在空间和目标空间之间的双射一致性,以避免模式崩溃问题。生成器在训练期间学习将给定的源图像与低维潜在代码相结合映射到输出。而这种方法仍然需要配对的训练数据。最近,CycleGAN被提出通过使用循环来解决不成对的I2I翻译问题。

实例级图像到图像的翻译

 据我们所知,到目前为止,在实例级I2I翻译问题上的努力很少。也许与我们的工作最相似的是最近提出的InstaGAN,它利用对象分割掩码来翻译图像和相应的实例属性集,同时保持实例的排列不变性。上下文保留损失旨在鼓励模型在目标实例之外学习身份函数。与我们的主要区别在于,instaGAN无法充分翻译整个图像的不同域。它们专注于翻译实例并维护外部区域,相比之下,我们的方法可以同时翻译实例和外部区域,使全局图像更逼真。 此外,InstaGAN建立在单模态的CycleGAN上,而我们选择利用MUNIT和DRIT来构建我们的INIT,因此我们的方法继承了多模态和无监督的特性,同时产生了更多样、更高质量的图像。其他一些现存的作品或多或少与本文有关。例如,DA-GAN学习了一个深度注意力编码器来实现实例级翻译,这无法处理多实例和复杂的环境。BeautyGAN通过使用人脸解析掩模的直方图损失,专注于面部化妆转移。

一个非配对图像到图像翻译的新基准

 我们介绍了一个新的以街道场景为中心的大规模数据集,该数据集解决了I2I翻译中的三个核心研究问题:(1)无监督学习范式,这意味着数据集中没有特定的一对一映射;(2) 多模式域合并。大多数现有的I2I翻译数据集只提供两个不同的领域,这限制了探索更具挑战性的任务(如多领域合并环境)的潜力。我们的数据集包含四个领域:单一街道场景中的晴天、夜间、多云和下雨;以及(3)多粒度(全局和实例级)信息。我们的数据集提供了实例级边界框注释,可以利用更多细节来学习翻译模型。表1显示了各种I2I翻译数据集之间的逐特征比较。我们还可视化了图6中数据集的一些示例。 例如类别,我们在街景中注释了三个常见的对象,包括:汽车、人、交通标志(限速标志)。整个数据集的详细统计数据(#images)如第4节所示。

3、实例感知的图像到图像翻译

 我们的目标是在没有配对训练示例的情况下实现两个不同域之间的实例感知I2I翻译。我们通过利用MUNIT和DRIT方法构建我们的框架。为了避免重复,我们省略了一些无伤大雅的细节。与MUNIT和DRIT类似,我们的方法直接且易于实现。如图5所示,我们的翻译模型由两个编码器

g
g

o
o

分别表示全局图像区域和实例图像区域)和每个域

中的两个解码器

组成。更详细的说明如图4所示。由于我们有对象坐标,我们可以裁剪对象区域,并将它们输入到实例级编码器中,以增加内容/样式向量。对象内容向量的另一种方法是采用全局图像内容特征的RoI池。在这里,我们使用图像裁剪(对象区域)并共享两个编码器的参数,这更容易实现。

解开目标和整个图像上的内容和风格

 我们的方法还将输入图像/对象分解为共享内容空间和领域特定风格空间。以全局图像为例,每个编码

E_g
E_g

可以将输入分解为内容代码

c_g
c_g

和风格代码

s_g
s_g

,其中

I
I

表示输入图像表示。

c_g
c_g

s_g
s_g

是全局级别的内容/风格特性。

生成风格编码库

 我们从对象、背景和整个图像中生成风格代码,这些代码构成了我们的风格代码库,用于以下交换操作和翻译。相比之下,MUNIT和DRIT只使用整个图像样式或属性,这很难对丰富的图像空间表示进行建模和覆盖。

 关联用于循环重建的内容样式对

 我们的跨循环一致性是通过交换编码器-解码器对来实现的(图5中的虚线)。交叉循环包括两种模式:跨域(X↔ Y) 和交叉粒度(整个图像↔ 对象)。我们展示了交叉粒度(图↔ 对象)在图5中,跨域一致性(X↔ Y) 类似于MUNIT和DRIT。如图3所示,交换或内容风格关联策略是跨多粒度区域的分层结构。直观地说,粗糙(全局)风格可能会影响最终内容并被局部地区采用,而如果过程相反,则不是这样。接下来,我们还使用AdaIN来组合内容和风格向量。

融合进多尺度

 在技术上很容易将多尺度优势纳入框架中。我们简单地将图5中的对象分支替换为分辨率降低的图像。在我们的实验中,我们使用1/2比例和原始大小的图像成对进行比例增强训练。具体而言,小尺寸和原始尺寸图像的样式可以相互执行,生成器需要学习这两种图像的多尺度重建,从而获得更准确的结果。

重建损失

 我们对整个图像和对象使用自重建和交叉循环一致性损失,以鼓励它们的重建。对于编码的

c
c

s
s

,解码器应该将它们解码回原始输入,

  我们还可以将潜在分布(即内容和风格向量)重建为[11]。

 其中

c_o
c_o

s_g
s_g

是实例级别的内容和全局级别的样式特性。然后,我们可以使用以下形式来学习它们的重建:

 其中

k
k

可以是

I
I

o
o

c
c

s
s

p(k)
p(k)

表示数据k的分布。跨循环一致性的形成与此过程类似,更多细节可参考[17]。

 对抗损失

 生成对抗性学习已适用于许多视觉任务,例如检测、修复、集成等。我们采用对抗性损失

,其中

试图区分每个领域中的真实图像和合成图像/对象。我们探索了鉴别器的两种设计:每个域中全局图像和实例图像的权重共享或权重独立。消融实验结果如表3和表4所示。我们观察到,在我们的实验中,共享鉴别器是更好的选择。

 整个目标函数

 我们框架的整个目标函数为:

 在推理时,我们只需使用全局分支来生成目标域图像(见图4右上部分),因此在这个阶段不必使用边界框注释,而且这种策略还可以保证生成的图像是和谐的。

4、实验和分析

我们在收集的数据集(INIT)上进行实验。我们还使用COCO数据集来验证数据扩充的有效性。

INIT数据集

INIT数据集由132201张用于训练的图像和23328张用于测试的图像组成。具体统计情况如表2所示。所有数据都是在日本东京用SEKONIX AR0231相机收集的。整个收集过程持续了大约三个月。

实现细节

我们的实现是基于带有PyTorch的MUNIT。对于I2I转换,由于GPU内存的限制,我们将图像的短边调整为360像素。对于COCO图像合成,由于训练图像(INIT数据集)和目标图像(COCO)的分布不同,我们保持训练图像的原始大小,并裁剪360×360像素来训练我们的模型,以便学习图像和对象的更多细节,同时忽略全局信息。 在这种情况下,我们将对象部分构建为一个独立的分支,并且在训练期间将每个对象的大小调整为120×120像素。

 4.1、基线

我们对以下四种最新提出的最先进的不成对I2I翻译方法进行了评估:

CycleGAN:

CycleGAN包含两个翻译函数(X→ Y和X← Y) ,以及相应的对抗性损失。它假设输入图像可以被转换到另一个域,然后可以在周期一致性丢失的情况下被映射回。

UNIT:

UNIT方法是基于共享潜在空间假设的CycleGAN的扩展。它包含两个VAE GAN,并且还使用循环经济性损失来学习模型。

MUNIT:

MUNIT由每个域的编码器和解码器组成。它假设图像表示可以分解为域不变的内容空间和域特定的风格空间。每个编码器的潜在向量被分解为内容向量和风格向量。I2I翻译是通过交换内容样式对来执行的。

4.2、评估

我们采用了与以前的无监督I2I翻译工作相同的评估协议,并使用LPIPS度量、启始得分(IS)和条件启始分数(CIS)评估我们的方法。 LPIPS标准

张等人提出了LPIPS距离来衡量翻译多样性,该距离已被证明与人类感知心理物理相似性具有良好的相关性。我们计算了来自我们测试集的100个输入图像的19对随机采样翻译输出之间的平均LPIPS距离。我们还使用预训练的AlexNet来提取深度特征。结果总结在表3中。“INIT w/Ds”表示我们使用整个图像和对象之间的共享鉴别器来训练我们的模型。“INIT w/o Ds”表示我们为图像和对象构建单独的鉴别器。由于我们使用了粗糙和精细的风格,我们的平均INIT w/Ds得分显著优于MUNIT。

启始得分(IS)和条件性启始分数(CIS)

我们使用起始得分(IS)和条件起始得分(CIS)来评估我们学习的模型。IS测量所有输出图像的多样性,CIS测量单个输入图像条件下的输出多样性,这是一种改进的IS,更适合评估多模式I2I翻译任务。CIS的详细定义可参考[11]。我们还使用Inception V3模型在数据集的四个领域类别标签上对我们的分类模型进行微调。其他设置与[11]相同。从表4中可以看出,我们的结果始终优于基线MUNIT和DRIT。 基于多数据集的图像合成

我们合成图像的可视化如图7所示。左边的组图在COCO上,右边在城市景观上。我们观察到,多个数据集合成最具挑战性的问题是它们之间的类间方差。

COCO上检测和分割的数据增强

 我们使用Mask RCNN框架进行实验。我们的sunny生成了整个COCO数据集的合成副本→夜间模型。我们使用Mask RCNN的开源实现来训练COCO模型。对于训练,我们使用相同数量的训练时期和其他默认设置,包括学习评级计划、#batchsize等。

 表5总结了所有结果。第一列(组)显示了我们使用的训练数据,第二组显示了我们测试的验证数据。第三组和第四组分别是检测和分割结果。我们可以观察到,我们的真实图像训练模型在合成验证图像上可以获得30.4%的mAP,这表明原始COCO和我们的合成图像之间的分布差异不是很大。我们的生成过程似乎更有可能对图像进行测光失真或亮度调整,这可以被视为一种数据增强技术,并在[22]中验证了对象检测的有效性。从最后两行我们可以看出,合成图像不仅有助于提高真实图像测试性能,而且真实图像还可以提高合成图像的结果(对合成图像进行训练和测试)。 我们还在表6中比较了不同生成方法的改进。结果表明,与基线相比,我们的对象分支可以为检测任务带来更多的好处。我们还认为,所提出的数据增强方法可以有益于一些有限的训练数据场景,如从头开始学习检测器。

我们进一步对城市景观进行了场景解析。然而,我们在这个实验中没有看到明显的改进。使用PSPNet和ResNet-50,我们在真实图像上训练和测试时获得了mIoU:76.6%,mAcc:83.1%,在两幅合成图像上获得了74.6%/81.1%。我们可以看到,真实图像和合成图像之间的差距非常小。我们推测这种情况(没有收益)是因为合成的城市景观与原始城市景观过于接近。我们在表7中比较了性能下降。由于COCO和城市景观的指标不同,我们使用相对百分比进行比较。结果表明,COCO的合成图像可能更加多样化,因为城市景观的下降幅度要小得多。       

5、分析

定量比较

 我们将我们的方法与基线MUNIT进行了定性比较。图10显示了晴天的示例结果→夜我们为每种方法随机选择一个输出。很明显,我们的结果更加现实,多样化,质量更高。如果对象区域很小,MUNIT可能会陷入模式崩溃,并在对象区域周围带来小的伪影,相反,我们的方法可以通过实例级重建来克服这个问题。我们还可视化了图中的多模式结果。8使用随机采样的风格向量。可以观察到,在这些图像上产生了不同程度的黑暗。

实例生成

 生成的实例的结果如图所示。9,我们的方法可以生成更多不同的对象(第1、2、6列),更多的细节(第5、6、7列),甚至可以生成反射(第7列)。如果全局样式不适合目标对象(列2),则MUNIT有时无法生成所需的结果。

t-SNE的风格可视化

 具有相同颜色的组是同一域的成对对象样式和全局样式。

局部(对象)和全局样式代码分布的比较

 为了进一步验证我们的假设,即对象和全局样式是可区分的,足以解开,我们从我们的w/D模型中可视化嵌入的样式向量。可视化是通过t-SNE工具绘制的。我们在每个领域的测试集中随机抽取了100个图像和对象,结果如图所示。5。相同的颜色组表示同一域中的成对全局图像和对象。我们可以观察到,同域全局图像和对象图像的风格向量以显著的幅度进行分组和分离,同时它们在嵌入空间中是相邻的。这是合理的,证明了我们学习过程的有效性。

6、结论

 在本文中,我们提出了一个使用未配对训练数据进行实例感知I2I翻译的框架。大量的定性和定量结果表明,该方法可以捕捉物体的细节,产生逼真多样的图像。同时,针对实例级I2I翻译问题,我们还建立了一个带有边界框注释的大规模数据集。     

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 1、介绍
  • 2、相关工作
    • 图像到图像翻译
      • 实例级图像到图像的翻译
        • 一个非配对图像到图像翻译的新基准
        • 3、实例感知的图像到图像翻译
        • 4、实验和分析
          •  4.1、基线
            • 4.2、评估
              • 定量比较
          • 5、分析
          • 6、结论
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档