论文:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
会议:CVPR2018
任务:利用条件 GAN 进行 2048 x 1024 分辨率的图像合成和处理
pix2pix:
Image-to-Image Translation, 使用Domain A的图片作为pix2pix 的输入,生成domain B的图片,利用判别器对图片对进行判别,如下图
D(real edge, fake image) --> fake
D(real edge, real image) --> real
限制: 生成256*256的图片,难以生成高分辨率图像;
pix2pixHD:
任务: 进行2048 x 1024 分辨率的图像合成和处理
方法:针对高分辨率的图片,利用GAN综合local和global的信息构建一个Coarse-to-fine 的架构完成从label生成高分辨率图片的任务,并且允许生成多风格(外观纹理不同)的图片以及允许实例操纵。
网络:Coarse-to-fine 生成器
生成器拆分成两个子网络 G={G1,G2}:全局生成器网络 G1利用全局信息 和局部增强网络 G2利用局部信息,前者输入和输出的分辨率保持一致(如 1024 x 512),后者输出尺寸(2048 x 1024)是输入尺寸(1024 x 512)的 4 倍(长宽各两倍)。
以此类推,如果想要得到更高分辨率的图像,只需要增加更多的局部增强网络即可(如 G={G1,G2,G3})。
多尺度判别器:相同的架构,使用不同尺度的图片作为输入进行判别器训练
视觉交互操作(interative visual manipulation):
先看一下结果:
从作者发布的视频中,可以看到,可以选择更换街景中车辆的颜色和型号,给街景图增加一些树木,或者改变街道类型(例如将水泥路变成十字路)。类似地,利用语义标注图合成人脸时,给定语义标注的人脸图像,你可以选择组合人的五官,调整大小肤色,添加胡子等。
这是这篇文章最有趣的一个部分,这是怎么做的呢?
通过使用Instance map,进行视觉交互式操作,对图片进行交互操作,网络如下:
将图片输入到Feature encoder network E得到图片的分割图,使用Instance-wise average pooling对feature maps进行pooling操作,从而得到图片的Features ,将图片的Labels和Featuresconcat到一起,输入Image generation network G生成目标图片。