ECCV 2020 | 基于对抗一致性，非匹配图像转换效果真假难辨

AI科技评论

发布于 2020-07-15 14:39:22

7480

发布于 2020-07-15 14:39:22

文章被收录于专栏：AI科技评论

本文介绍的是ECCV 2020 论文《Unpaired Image-to-Image Translation using Adversarial Consistency Loss》，论文作者来自北大。本论文解读首发于知乎（https://zhuanlan.zhihu.com/p/156092551）。

作者 | Hyperplane PKU

编辑 | 丛末

论文地址：https://arxiv.org/abs/2003.04858

问题引入

图1. 眼镜去除的例子

今天介绍一篇 ECCV 2020 上最新的工作 ACL-GAN，提出从数据分布角度约束不可逆图像转换过程，主要解决了以下问题：

规避了 cycle loss 的缺点；
转换后图像与原图具有相关性；
对于同一张输入，可以输出合理高质量的多模态输出；
利用较少的网络参数，降低了训练和使用成本。

该方法生成的图片令人难辨真假，而且在量化评价上，也超过现有方法，成为 state-of-the-art。

方法简介

图2. ACL loss（左）和cycle loss（右）的对比

图3. ACL-GAN的模型框架

同时，图像转换任务中有些信息是我们希望完全不变的（如背景）。该方法采用注意力机制（attention mechanism），令生成器同时生成注意力遮罩，区分前景和背景（0表示背景，1表示前景）。但现有的方法往往不限制遮罩的形态，本文作者提出 Bounded focus mask，对注意力遮罩增加两种限制：1）每一个像素趋向于0/1，即明显划分前景和背景；2）前景的面积根据不同任务限制在特定范围。Bounded focus mask 可以帮助生成器集中精力在需要修改的区域，从而提高生成效果。

图4. Bounded focus mask示例

实验结果

为说明每一部分loss的有效性，该工作进行了消融实验，结果如下（量化测试见原论文）：

图5. 消融实验结果

其中ACL-GAN是有所有loss的模型；ACL-A是去掉ACL loss；ACL-I是去掉identity loss；ACL-M是去掉mask loss。

虽然每一种模型都成功实现了性别转换，而且结果已经可以以假乱真，但仔细比较，我们仍然可以发现不同约束的作用，增强了该方法的可解释性。该实验结果符合分析：ACL-A 的结果虽然成功转换，但生成图片和原图之间关联性不强，如发色、肤色、周围、牙齿等发生明显变化；ACL-I 的结果视觉上差距不大，但量化指标略低于 ACL-GAN；ACL-M 的背景明显发生变化，图片质量也略低于 ACL-GAN，原因是 mask 可以帮助生成器将注意力集中在前景上。

为了验证该方法在不同任务上的表现，作者在眼镜去除、性别转换和自拍到动漫转换三个任务上，与多个现有方法进行了比较，这三个方法对生成器的要求侧重各不相同，通过结果很明显可以看出来生成器完美胜任了这三个任务，而且规避了 cycle loss 的缺点。

图6. 眼镜去除任务比较

眼镜去除任务主要有两大难点：1）眼镜外的区域要求完全保留不变；2）眼镜隐藏的部分信息要合理的补充出来，如太阳镜完全遮住眼睛。可以看到，ACL-GAN 不仅成功完成上述任务，而且没有留下任何“作弊”的痕迹。

图7. 性别转换任务比较

性别转换任务具有公认的三大难点：1）多模态变化，对于同一张输入，可以有多种输出对应；2）性别转换不仅要求改变颜色和纹理，还需要改变形状（如头发）；3）配对的数据无法获得。即使面对这些难点，ACL-GAN 仍然很好的完成了该任务，无论是头发、胡须的变化，还是五官特征、背景的保留，都优于现有方法。

图8. 自拍到动漫转换任务比较

自拍到动漫转换任务改变幅度最大，整张图片风格和主题都需要发生较大改变。ACL-GAN 生成的结果自然，而且符合动漫人物的特征（如大眼睛、小嘴巴等），而且也与原图有更大的相关性。

图9. 多种方法在不同任务上量化比较

为了进一步证明该方法的有效性，作者采用 FID、KID 指标量化评价三个任务上不同方法的表现，ACL-GAN都取得了最优的成绩，大部分结果都远远优于采用 cycle loss 的方法。

除此以外，该方法的网络参数较小，与大部分已有方法相当。ACL-GAN 的参数数量甚至不到表现相近方法（CouncilGAN、U-GAT-IT）的一半。具有较小的训练和存储开销。

结语

不可逆的图像转换任务具有广泛的应用场景，也是计算机视觉中重要的任务之一。本文从数据分布的角度约束对抗生成网络，在多种不同场景上达到 state-of-the-art，体现其有效性，为图像转换提供了新思路。

参考文献

[1] Pix2Pix: Image-to-Image Translation with Conditional Adversarial Networks. Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros. CVPR 2017.

[2] GAN: Generative Adversarial Nets. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio. NIPS 2014.

[3] CycleGAN: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros. ICCV 2017.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-07-10，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习