任意姿态妹子生成算法用于姿态引导人物图像合成的软门控翘曲GAN

我们的方法包括人工解析器以生成目标部件分割图,以指示具有更高级结构信息的图像合成,以及软门控扭曲块以扭曲特征图以渲染纹理。

摘要:尽管图像合成研究取得了显着进步,但现有的工作常常在大的几何变换的背景下操作图像失败。合成以任意姿势为条件的人物图像是最具代表性的例子之一,其中生成质量很大程度上依赖于识别和建模不同身体部位上的任意变换的能力。当前的生成模型通常建立在局部卷积上,并且当由任意姿势操纵引起的每个部分发生不同的几何变化时,忽略了关键挑战(例如,重度遮挡,不同视图或戏剧性外观变化)。本文旨在通过一个新的软门控翘曲生成对抗网络(Warping-GAN)解决由几何变异和空间位移引起的这些挑战,该网络由两个阶段组成:1)它首先合成给定目标的目标部分分割图姿势,描述区域级空间布局,用于引导具有更高级别结构约束的图像合成; 2)配备软门控翘曲块的Warping-GAN学习特征级映射,以将纹理从原始图像渲染到生成的分割图中。 Warping-GAN能够在给定不同目标姿势的情况下控制不同的变换程度。此外,所提出的翘曲块重量轻且足够灵活,可以注入任何网络。人类感知研究和定量评估证明我们的Warping-GAN的优越性明显优于两个大型数据集上的所有现有方法。

1简介

人物图像合成作为图像分析中最具挑战性的任务之一,在电影制作,人机交互,运动预测等方面具有巨大的潜在应用。尽管最近在低级纹理变换的图像合成方面取得了进展[13,35,由于现有模型的技术限制,人物图像合成尤其未被探索并遇到无法解决的更多挑战,因此(例如风格或颜色)。影响发电质量的主要困难在于衣服和身体部位的大量外观多样性和空间布局变换,这是由任意姿势操纵的大的几何变化引起的。建立在编码器 - 解码器结构上的现有模型[20,21,28,8,19]缺乏考虑关键的形状和外观错位,经常导致不满意的生成的人图像。

在最近的人物图像合成尝试中,表现最佳的方法(PG2 [20],Body-ROI7 [21]和DSCF [28])都直接使用传统的基于卷积的生成模型通过将图像和目标姿势对或更多身体部位作为输入。 DSCF [28]采用可变形跳过连接来构造生成器,并且只能使用简单的亲和属性以粗矩形比例转换图像。然而,他们忽略了人体图像合成中最关键的问题(即大的空间错位),这限制了他们处理大的姿势变化的能力。此外,由于缺乏建模更高级别的部分级结构布局,它们无法捕获具有目标姿势的条件图像之间的结构一致性。因此,当期望的姿势要求大的几何变换时,它们的结果遭受各种伪影,模糊的边界,缺少衣服外观,这是令人满意的。如图1所示,由于达到目标姿势的严重错位问题,现有的现有技术人员图像合成方法的性能令人失望。

在本文中,我们提出了一种新的软门控翘曲-GAN,以解决由所需姿势的几何变换引起的大空间错位问题,其包括两个阶段:1)姿势引导解析器用于合成部分分割图给出目标姿势,描绘部分级空间布局,以更好地指导具有高级结构约束的图像生成;

2)Warping-GAN通过以预测的分割图为条件,通过学习从原始图像到目标姿势的几何映射,将详细的外观呈现到每个分割部分中。 Warping-GAN首先训练一个轻量级几何匹配器,然后估计它在条件和合成分割图之间的变换参数。基于所学习的变换参数,Warping-GAN结合了软门控翘曲块,该翘曲块扭曲条件图像的深度特征图以呈现目标分割图。

我们的Warping-GAN有几个技术优点。首先,变形块可以根据不同的姿势操作请求通过软门控功能来控制变换程度。例如,对于显着的姿势变化将激活大变换,而对于原始姿势和目标姿势相似的情况将执行小程度的变换。其次,翘曲信息特征图而不是原始像素值可以帮助合成更逼真的图像,从强大的特征提取中受益。第三,变形块可以通过关注层自适应地选择有效的特征映射以执行变形。

大量实验表明,所提出的软门控翘曲-GAN在质量上明显优于基于姿势的人体图像合成的现有最先进方法。并且在数量上,特别是对于大的姿势变化。此外,人类感知研究进一步表明我们的模型的优越性,与其他方法相比,获得了更高的分数,具有更真实的生成结果。

关相关工作:图像合成。在GAN的显着成果[10]的推动下,许多研究人员利用GAN来生成图像[12,6,18]。 DCGANs [24]引入了一种无监督学习方法来有效地生成真实图像,其将卷积神经网络(CNN)与GAN相结合。 Pix2pix [13]利用条件对抗网络(CGAN)[22]来处理图像到图像的翻译任务,这些任务学习了从条件图像到目标图像的映射。 CycleGAN [35],DiscoGAN [15]和DualGAN [33]都提出了一种无监督的方法,用两个带有未标记图像的域生成图像。此外,StarGAN [5]提出了一个统一的模型,用于图像到图像的转换任务,面向多个领域,这对年轻人到老年人,从愤怒到快乐,从女性到男性都是有效的。 Pix2pixHD [30]使用两个不同尺度的残差网络,通过两个步骤生成高分辨率图像。这些方法能够学习生成逼真的图像,但在处理基于姿势的人合成中具有有限的可扩展性,因为看不见的目标姿势和复杂的条件外观。与那些方法不同,我们提出了一种新颖的Soft-Gated Warping-GAN,它注重深度特征空间中的姿势对齐,并处理区域级别的纹理渲染以合成人物图像。

人物图像合成。最近,已经提出了许多研究来利用对抗性学习来进行人物图像合成。 PG2 [20]提出了一种两阶段GAN架构,用于根据姿势关键点合成人物图像。 BodyROI7 [21]应用解剖和重构方法从不同的采样特征生成人物图像。 DSCF [28]引入了一种特殊的U-Net [26]结构,其具有可变形跳过连接作为生成器,以从分解和可变形图像合成人图像。 AUNET [8]提出了一种变分U-Net,用于生成以火柴人为条件的图像(更多的人工姿势信息),通过变分自动编码器操纵外观和形状。 Skeleton-Aided [32]提出了一种骨架辅助的视频生成方法,采用标准的pix2pix [13]架构,根据姿势生成人体图像。 [1]提出了模块化GAN,将图像分成不同的部分,并通过目标姿势重建它们。 [23]基本上使用CycleGAN [35]生成人物图像,其应用条件双向发生器通过姿势重建原始图像。 VITON [11]使用从粗到细的策略将服装图像转换为固定的姿势人物图像。 CP-VTON [29]学习了一种薄板样条转换,用于通过几何匹配模块(GMM)将店内衣服转换为适合目标人物的体形。但是,上述所有方法都有一个共同的问题,忽略条件和目标图像之间的深度特征映射错位。在本文中,我们利用一个Soft-Gated Warping-GAN,包括一个姿势引导解析器来生成目标解析,指导在特定部分分割区域上渲染纹理,以及一个新颖的扭曲块来对齐图像特征,它可以产生更逼真的纹理,用于合成以不同姿势为条件的高质量人物图像。

3Soft-Gated Warping-GAN

我们的目标是在保持纹理细节的同时将给定人物图像的姿势更改为另一个,同时利用条件和目标分割图之间的转换映射。我们将此任务分解为两个阶段:姿势引导解析和Warping-GAN渲染。我们首先描述我们的软门控Warping-GAN架构的概述。然后,我们将分别详细讨论姿势引导解析和Warping-GAN渲染。接下来,我们提出了变形块设计和用于估计变换参数和变形图像的流水线,这有利于生成逼真的人物图像。最后,我们详细描述了我们网络中应用的综合损失函数。

我们的管道分别是用于姿势引导解析和Warping-GAN渲染的两阶段架构,其包括人类解析解析器,姿势估计器和仿射[7] / TPS [2,25](薄板样条)转换估算器。值得注意的是,我们首次尝试估算用于生成人物图像的人物部分分割图的变换。在阶段I中,我们首先基于目标姿势和来自条件图像的解析结果来预测人类解析。合成的解析结果被切断为空间约束以增强人的一致性。在阶段II中,我们联合使用来自阶段I,条件图像和目标姿势的合成解析结果来训练基于深度翘曲块的生成器和鉴别器,其能够在特定区域上呈现纹理细节。在这两个阶段中,我们仅将条件图像和目标姿势作为输入。与AUNET [8](使用'stickman'来表示姿势,涉及更多人工和训练约束)相反,我们遵循PG2 [20]用18个热图编码姿势。每个热图具有一个点,其中填充有4像素半径圆中的1和其他地方的0。

3.1.1第一阶段:姿态引导的解析

为了学习在条件级别上从条件图像到目标姿势的映射,引入姿势引导解析器以生成以姿势为条件的目标图像的人体解析。合成的人体解析包含像素级类标签,可以指导类级别的图像生成,因为它可以帮助细化部件的详细外观,例如面部,衣服和手。由于DeepFashion和Market-1501数据集没有人工解析标签,我们使用LIP [9]数据集来训练人类解析网络。 LIP [9]数据集由50,462个图像组成,每个人有20个语义标签。为了捕捉人的精致外观,我们将合成的解析标签转换为具有20个通道的单热张量。每个通道都是二元掩模矢量,表示一类人物部分。这些矢量与条件图像和姿势共同训练,以从图像特征和人的结构中捕获信息,这有利于合成更逼真的人物图像。改编自Pix2pix [13],姿势引导解析器的生成器包含9个残余块。此外,我们利用LIP [9]的逐像素softmax损失来提高结果质量。如图2所示,姿势引导解析器由一个类似ResNet的生成器组成,它将条件图像和目标姿势作为输入,并输出服从目标姿势的目标解析。

3.1.2阶段II:Warping-GAN渲染

在这个阶段,我们利用一种新颖的区域学习来基于特定区域渲染纹理细节,由阶段I的综合解析引导。形式上,让Ii = P(li)表示区域学习的功能其中Ii和li分别表示该像素的第i个像素值和类标签。并且i(0≤i

然而,条件和目标图像之间的不对准导致产生模糊值。为了缓解这个问题,我们通过引入两种新方法进一步学习条件图像和目标姿态之间的映射:几何匹配器和软门控翘曲块传递。受几何匹配方法GEO [25]的启发,我们提出了一种基于解析的几何匹配方法来估计条件和综合解析之间的转换。此外,我们设计了一个名为warping-block的新块,用于在部分级别对条件图像进行扭曲,使用第一阶段的综合解析。注意,那些转换映射是从解析中估算出来的,我们可以使用它来扭曲深层条件图像的特征。

几何匹配。我们训练几何匹配器来估计条件和综合解析之间的转换映射,如图3所示。与GEO [25]不同,我们将此问题作为解析上下文匹配来处理,这也可以有效地估计转换。由于测试短语中缺少目标图像,我们使用条件和合成解析来计算变换参数。在我们的方法中,我们结合仿射和TPS通过GEO后的一个连体卷积神经网络获得变换映射[25]。具体来说,我们首先估计条件和综合解析之间的仿射变换。基于仿射估计的结果,我们然后估计来自仿射变换和目标解析的变形结果之间的TPS变换参数。采用变换映射来变换条件图像的提取特征,有助于缓解未对准问题。

4.5基础研究

为了验证所提方法的每个组成部分的影响,我们对DeepFashion [36]和Market-1501 [34]进行了消融研究。如表1和图8所示,我们报告了所提出方法的不同版本的评估结果。我们首先使用姿势引导解析将结果与结果进行比较而不使用它。通过比较,我们可以了解到将人类解析器结合到我们的生成器中可以显着提高生成性能,这可以描绘区域级空间布局,以通过部分分割图引导具有更高级别结构约束的图像合成。然后,我们检查了所提出的软门控翘曲块的有效性。从表1和图8中可以看出,没有软门控翘曲块,性能会急剧下降。结果表明,通过翘曲块插入获得的改进性能不仅仅是由于附加参数,而是由翘曲操作固有地带来的有效机制,其作为软门来根据姿势操纵来控制不同的转换程度。我们还研究了每个术语在我们目标函数中的重要性。可以看出,添加四个损失中的每一个可以大大增强结果。

5Conclusion

在这项工作中,我们提出了一种新的软门控翘曲-GAN,用于解决姿势引导人的图像合成,旨在解决由几何变化和空间位移引起的挑战。我们的方法包括人工解析器以生成目标部件分割图,以指示具有更高级结构信息的图像合成,以及软门控扭曲块以扭曲特征图以渲染纹理。基于各种目标姿势有效地控制不同的变换程度,我们提出的软门控变形-GAN可以用最佳的人类感知分数产生非常逼真和自然的结果。定性和定量实验结果证明了我们提出的方法的优越性,该方法在两个大型数据集上实现了最先进的性能。

原文标题:Soft-Gated Warping-GAN for Pose-Guided Person Image Synthesis

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181031A0VLHV00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券