从背景中学习：基于区域自适应实例归一化的图像和谐化方法

用户1324186

发布于 2021-07-29 15:55:30

1.9K0

发布于 2021-07-29 15:55:30

文章被收录于专栏：媒矿工厂媒矿工厂

本文为媒矿工厂发表的论文

论文标题：Region-aware Adaptive Instance Normalization for Image Harmonization

发表会议：CVPR2021

作者：凌军

这是我们最近发表在CVPR2021的工作，主要功能是图像后期融合处理，让组合图像看起来更和谐，实验效果如图1所示。

在这项工作中，我们将组合图像和谐化任务转化为一个图像特征风格迁移（从背景图像迁移到前景图像）的任务，并且实现了较好的效果。本文代码已开源，并且上传了预训练模型。

代码链接：

https://github.com/junleen/RainNet

文章链接：

https://arxiv.org/abs/2106.02853

What?

在传统的图像处理算法中，我们知道很多的简单算法如直方图均衡、图像滤波去噪等，这些算法可以对单张图像进行视觉质量的增强。不过这些方法都是对图像的整体进行统一方式的处理。在实际应用中，很多图像处理工作可能只需要编辑局部图像，例如将一张原始图像中的目标区域抠取并粘贴到另一张目标图像上。然而，原始图像中的目标区域与目标图像可能存在视觉特征不和谐、不融洽的问题，这便容易产生不真实感，即不和谐（具体例子见图2）。针对此问题的研究中，有的传统方法可以针对组合图像（也就是常见的抠图+贴图）进行特殊处理，如泊松图像融合方法[1]，多尺度图像和谐化[2]。然而这些方法都是基于规则的方法，都建立在确定好需要匹配提取的手工特征上。发表于图形学顶级刊物ACM Trans. On Graphics的论文[3]则根据很多图像的特征统计值及其相关性来选择特征，他们的方法都有一定的借鉴意义。但是局限性在于手工特征与卷积网络可学习的特征具有不一样的意义。卷积网络可学习的特征比选定的手工特征具有更多的优势，比如种类更加丰富，而且是从大批量的图像中学习到的。

基于深度学习的方法有传统方法没有的优势，比如端到端的训练与测试、特征可学习、并且在视觉感知上更加真实。之前的方法包括[4, 5, 6, 7]都在此问题上做了尝试，如[4]提出使用一个判别式模型来预测一张组合图像的真实性分数，利用该模型预测的分数来辅助迭代调整组合图像前景的优化过程。从这一点看，颇有利用额外的判别器进行对抗学习的意味。只不过在优化过程中，组合图像不会被用于判别式模型的训练而已。[5]的作者认为，在组合图像和谐化中，还需要考虑到语义信息，因此作者提出在解码端添加一个语义分割分支，希望编码器可以学习到语义相关的特征。[6]的作者提出一个空间分离注意力模块（Spatial-Separated Attention Module, S2AM）分别学习前景图像的特征与背景图像的特征，然后再进行相加的操作。[7]提出一个大规模的数据集，并且提出一种域判别损失，对和谐的前景背景图像与不和谐的前景背景图像计算对抗损失，从而来辅助生成器映射网络预测出更和谐的结果。

Why?

事实上，从这几类方法来看，作者们考虑的问题越来越具体，并且模型性能也越来越好。然而他们的方法有一个共同点是没有显式地建立前景与背景之间的关联。以如图2所示，这里有多张背景图像，这些图像特征中色彩、光照、明暗等特征都各不相同，但我们需要将前景图像贴合到背景图像中。直觉上看，这些前景图像应该以不同的方式调整其图像特征，从而使之与背景图像融合得更好而不突兀。如何具体实现这一“不同的方式“呢？受图像风格化[8]工作与[6, 7]的启发，在这项工作中，我们将组合图像和谐化任务转化为一个图像特征风格迁移（从背景图像迁移到前景图像）的任务。

图2. 多样化的前景特征风格与不和谐的组合图像及其和谐化结果

How?

我们在这篇论文中提出一个模块，叫做区域自适应实例归一化模块（Region-aware Adaptive Instance Normalization Module, RAIN），这个模块利用了AdaIN[8]的方法实现了Region-wise的AdaIN操作。结构图如图3所示：

图3. 区域自适应实例归一化模块

假设输入图像是由背景图像和前景图像组合而成的，记背景图像为

，前景图像为

，前景图像目标的掩码为

，组合图像为

，其中

为哈达玛乘积。

分别为第i层的特征和缩放后的前景掩码图。首先，我们分别乘以前景掩码和背景掩码

，得到分别来自前景与背景的特征，然后将分别在前景与背景特征上计算各通道的channel-wise特征，包括均值与标准差，公式如下：

于是，我们可以根据如下公式计算出经过RAIN之后的特征表达式：

核心模块就是如上所示，生成器网络我们采用的是U-Net结构加上用在解码器上的注意力模块，基本结构我们保持与[7]一致，我们在解码器的归一化模块上都应用RAIN模块，如图4所示：

图4. 生成器网络

关于为什么要在解码器上面加RAIN模块，而不是编码器上使用。根据后来的一些实验我们发现在网络的所有层都加上这一结构也是没问题的，效果与在解码器上加都没有明显不同，不过如果只在编码器上加，则效果较差，个中缘由并不是十分确定。

实验结果

由于本文的引用顺序与论文的引用顺序不一致，因此在此做具体说明，其中：Lalonde and Efros对应本文引用[9]，Xue et al对应本文[10]，Zhu et al对应本文[11]，DIH对应本文引用[5]，S2AM对应本文引用[6]，DoveNet对应本文引用[7]。

具体实验结果如下所示。

表1. 在iHarmony4[7]不同的子数据集上的PSNR指标比较。在客观指标上，本文方法胜于已有的方法。

表2. 客观指标与被粘贴的前景区域面积的比较。fMSE表示前景区域的均方误差，MSE在整张图像上计算。可以发现fMSE的只与前景全区域面积的变化差别不大，反而是MSE因为引入了大面积的背景图像，从而使得整体的平均误差缩小。

图5. 在iHarmony4[7]数据上的比较结果

图6. 在[5]的测试案例上的结果表现

从实验结果看，本文方法的性能要优于已有的方法，在多数案例上要优于[6, 7]，在少数案例上要弱于[5, 6, 7]方法。我们通过一个主观测试来选择看起来最合适的图像，结果如下：

表3.主观测试结果

是的，即使如本文所强调的“从背景中学习“，实验结果也证明不一定总是奏效，还有很多测试的结果是比不上之前的方法的，之后的方法或许会修复这一问题。

CVPR会议结束半月有余，学界最近的新进展亦在此列出，供读者所需：

Foreground-Aware Semantic Representations for Image Harmonization (WACV2021)
Bargainnet: Background-Guided Domain Translation for Image Harmonization (ICME2021)
Intrinsic Image Harmonization (CVPR2021)
Making Images Real Again: A Comprehensive Survey on Deep Image Composition (最新综述文章)

参考文献

[1] Patrick Perez, Michel Gangnet, and Andrew Blake. Poisson image editing. In ACM SIGGRAPH, pages 313–318. ACM New York, NY, USA, 2003.

[2] Kalyan Sunkavalli, Micah K Johnson, Wojciech Matusik, and Hanspeter Pfister. Multi-scale image harmonization. ACM Trans. Graph., 29(4):1–10, 2010.

[3] Su Xue, Aseem Agarwala, Julie Dorsey, and Holly Rushmeier. Understanding and improving the realism of image composites. ACM Trans. Graph., 31(4):1–10, 2012.[4] Jun-Yan Zhu, Philipp Krahenbuhl, Eli Shechtman, and Alexei A Efros. Learning a discriminative model for the perception of realism in composite images. In Int. Conf. Comput. Vis., pages 3943–3951, 2015.

[5] Yi-Hsuan Tsai, Xiaohui Shen, Zhe Lin, Kalyan Sunkavalli, Xin Lu, and Ming-Hsuan Yang. Deep image harmonization. In IEEE Conf. Comput. Vis. Pattern Recog., pages 3789–3797, 2017.

[6] Xiaodong Cun and Chi-Man Pun. Improving the harmony of the composite image by spatial-separated attention module. IEEE Trans. Image Process., 29:4759–4771, 2020.

[7] Wenyan Cong, Jianfu Zhang, Li Niu, Liu Liu, Zhixin Ling, Weiyuan Li, and Liqing Zhang. Dovenet: Deep image harmonization via domain verification. In IEEE Conf. Comput. Vis. Pattern Recog., pages 8394–8403, 2020.

[8] Xun Huang and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. In Int. Conf. Comput. Vis., pages 1501–1510, 2017.

[9] Jean-Francois Lalonde and Alexei A Efros. Using color compatibility for assessing image realism. In Int. Conf. Comput. Vis., 2007.

[10] Su Xue, Aseem Agarwala, Julie Dorsey, and Holly Rushmeier. Understanding and improving the realism of image composites. ACM Trans. Graph., 31(4):1–10, 2012.

[11] Jun-Yan Zhu, Philipp Krahenbuhl, Eli Shechtman, and Alexei A Efros. Learning a discriminative model for the perception of realism in composite images. In Int. Conf. Comput. Vis., pages 3943–3951, 2015

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-07-13，如有侵权请联系 cloudcommunity@tencent.com 删除

图像处理