【每周CV论文推荐】初学基于GAN的图像语义编辑，需要阅读哪些论文？

用户1508658

发布于 2022-11-07 21:42:48

2590

发布于 2022-11-07 21:42:48

文章被收录于专栏：有三AI有三AI

欢迎来到《每周CV论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。

生成对抗网络是一项非常基础的技术，当前基于GAN的语义图像合成可以用于修改图像中的语义信息，实现图像编辑，是一个非常重要与前沿的研究方向，本次我们给大家推荐初学基于GAN的图像编辑领域中值得阅读的一些方向。

作者&编辑 | 言有三

1 基本条件控制IcGAN

IcGAN是非常早期的图像编辑GAN领域的工作，它将条件GAN的结构进行反转，使用编码器完成从图像到属性向量的学习，从而通过对属性向量的编辑来实现图像编辑。

文章引用量：600+

推荐指数：✦✦✦✦✧

[1] Perarnau G, Van De Weijer J, Raducanu B, et al. Invertible conditional gans for image editing[J]. arXiv preprint arXiv:1611.06355, 2016.

2 多域条件控制StarGAN系列

StarGAN v1和StarGAN v2是非常经典的多域图像翻译框架，它通过域标签属性向量，可以自由地实现任意域之间的切换，从而实现图像语义内容的编辑。

文章引用量：3000+

推荐指数：✦✦✦✦✦

[2] Choi Y, Choi M, Kim M, et al. Stargan: Unified generative adversarial networks for multi-domain image-to-image translation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8789-8797.

[3] Choi Y, Uh Y, Yoo J, et al. Stargan v2: Diverse image synthesis for multiple domains[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 8188-8197.

3 潜在向量学习StyleGAN

StyleGAN优良的设计使其学习到了一个非常优秀的Latent向量空间，通过将图像反投影回该向量空间，可以实现各类属性的编辑，获得高质量的编辑效果，尤其是在人脸图像领域的研究非常多，以Image2StyleGAN等为代表。

文章引用量：10000+

推荐指数：✦✦✦✦✦

[4] Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 4401-4410.

[5] Abdal R , Qin Y , Wonka P . Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space?[J]. IEEE, 2019.

[6] Abdal R, Qin Y, Wonka P. Image2stylegan++: How to edit the embedded images?[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 8296-8305.

4 语义信息监督MaskGAN

前面介绍的框架要么通过对GAN的Latent空间进行学习，要么基于高层的语义属性作为条件控制，它们都只能编辑高层的语义，如果想要实现非常细粒度的编辑，需要语义级别的控制，MaskGAN就是一个典型的基于语义掩膜来进行编辑的框架，类似的还有经典的交互式编辑框架SPADE等。

文章引用量：3000+

推荐指数：✦✦✦✦✦

[7] Lee C H, Liu Z, Wu L, et al. Maskgan: Towards diverse and interactive facial image manipulation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 5549-5558.

[8] Park T, Liu M Y, Wang T C, et al. Semantic image synthesis with spatially-adaptive normalization[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 2337-2346.

5 如何进行实战

由于GAN图像编辑与图像生成、图像翻译都有关联，为了帮助大家掌握相关前置知识！我们推出了相关的专栏课程《深度学习之图像生成GAN：理论与实践》，《深度学习之图像翻译GAN：理论与实践》，感兴趣可以进一步阅读：

【视频课】CV必学，超6小时，2大模块，循序渐进地搞懂GAN图像生成！

【视频课】CV必学，超7小时，3大模块，3大案例，掌握图像翻译与风格化GAN核心技术！

总结

本次我们介绍了基于GAN的图像编辑的一些方法，这是GAN当前最前沿的技术方向，本次介绍的工作是该方向的基础内容，感兴趣的朋友可以通过阅读这些文章进行初步了解。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2022-09-28，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络