前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ECCV 2020 | 基于对抗一致性,非匹配图像转换效果真假难辨

ECCV 2020 | 基于对抗一致性,非匹配图像转换效果真假难辨

作者头像
AI科技评论
发布2020-07-15 14:39:22
7480
发布2020-07-15 14:39:22
举报
文章被收录于专栏:AI科技评论

本文介绍的是ECCV 2020 论文《Unpaired Image-to-Image Translation using Adversarial Consistency Loss》,论文作者来自北大。本论文解读首发于知乎(https://zhuanlan.zhihu.com/p/156092551)。

作者 | Hyperplane PKU

编辑 | 丛 末

论文地址:https://arxiv.org/abs/2003.04858

1

问题引入

图1. 眼镜去除的例子

今天介绍一篇 ECCV 2020 上最新的工作 ACL-GAN,提出从数据分布角度约束不可逆图像转换过程,主要解决了以下问题:

  1. 规避了 cycle loss 的缺点;
  2. 转换后图像与原图具有相关性;
  3. 对于同一张输入,可以输出合理高质量的多模态输出;
  4. 利用较少的网络参数,降低了训练和使用成本。

该方法生成的图片令人难辨真假,而且在量化评价上,也超过现有方法,成为 state-of-the-art。

2

方法简介

图2. ACL loss(左)和cycle loss(右)的对比

图3. ACL-GAN的模型框架

同时,图像转换任务中有些信息是我们希望完全不变的(如背景)。该方法采用注意力机制(attention mechanism),令生成器同时生成注意力遮罩,区分前景和背景(0表示背景,1表示前景)。但现有的方法往往不限制遮罩的形态,本文作者提出 Bounded focus mask,对注意力遮罩增加两种限制:1)每一个像素趋向于0/1,即明显划分前景和背景;2)前景的面积根据不同任务限制在特定范围。Bounded focus mask 可以帮助生成器集中精力在需要修改的区域,从而提高生成效果。

图4. Bounded focus mask示例

3

实验结果

为说明每一部分loss的有效性,该工作进行了消融实验,结果如下(量化测试见原论文):

图5. 消融实验结果

其中ACL-GAN是有所有loss的模型;ACL-A是去掉ACL loss;ACL-I是去掉identity loss;ACL-M是去掉mask loss。

虽然每一种模型都成功实现了性别转换,而且结果已经可以以假乱真,但仔细比较,我们仍然可以发现不同约束的作用,增强了该方法的可解释性。该实验结果符合分析:ACL-A 的结果虽然成功转换,但生成图片和原图之间关联性不强,如发色、肤色、周围、牙齿等发生明显变化;ACL-I 的结果视觉上差距不大,但量化指标略低于 ACL-GAN;ACL-M 的背景明显发生变化,图片质量也略低于 ACL-GAN,原因是 mask 可以帮助生成器将注意力集中在前景上。

为了验证该方法在不同任务上的表现,作者在眼镜去除、性别转换和自拍到动漫转换三个任务上,与多个现有方法进行了比较,这三个方法对生成器的要求侧重各不相同,通过结果很明显可以看出来生成器完美胜任了这三个任务,而且规避了 cycle loss 的缺点。

图6. 眼镜去除任务比较

眼镜去除任务主要有两大难点:1)眼镜外的区域要求完全保留不变;2)眼镜隐藏的部分信息要合理的补充出来,如太阳镜完全遮住眼睛。可以看到,ACL-GAN 不仅成功完成上述任务,而且没有留下任何“作弊”的痕迹。

图7. 性别转换任务比较

性别转换任务具有公认的三大难点:1)多模态变化,对于同一张输入,可以有多种输出对应;2)性别转换不仅要求改变颜色和纹理,还需要改变形状(如头发);3)配对的数据无法获得。即使面对这些难点,ACL-GAN 仍然很好的完成了该任务,无论是头发、胡须的变化,还是五官特征、背景的保留,都优于现有方法。

图8. 自拍到动漫转换任务比较

自拍到动漫转换任务改变幅度最大,整张图片风格和主题都需要发生较大改变。ACL-GAN 生成的结果自然,而且符合动漫人物的特征(如大眼睛、小嘴巴等) ,而且也与原图有更大的相关性。

图9. 多种方法在不同任务上量化比较

为了进一步证明该方法的有效性,作者采用 FID、KID 指标量化评价三个任务上不同方法的表现,ACL-GAN都取得了最优的成绩,大部分结果都远远优于采用 cycle loss 的方法。

除此以外,该方法的网络参数较小,与大部分已有方法相当。ACL-GAN 的参数数量甚至不到表现相近方法(CouncilGAN、U-GAT-IT)的一半。具有较小的训练和存储开销。

4

结语

不可逆的图像转换任务具有广泛的应用场景,也是计算机视觉中重要的任务之一。本文从数据分布的角度约束对抗生成网络,在多种不同场景上达到 state-of-the-art,体现其有效性,为图像转换提供了新思路。

参考文献

[1] Pix2Pix: Image-to-Image Translation with Conditional Adversarial Networks. Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros. CVPR 2017.

[2] GAN: Generative Adversarial Nets. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio. NIPS 2014.

[3] CycleGAN: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros. ICCV 2017.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题引入
  • 方法简介
  • 实验结果
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档