[计算机视觉论文速递] 2018-07-05 GAN专场

Amusi

发布于 2018-07-24 11:29:37

5580

发布于 2018-07-24 11:29:37

文章被收录于专栏：CVer

导言

这篇文章有4篇论文速递，都是GAN方向，包括根据文本生成图像和多域图像生成等方向。其中一篇是IJCAI 2018。

编辑: Amusi

校稿: Amusi

前戏

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨，还请见谅。喜欢的童鞋，欢迎star、fork和pull。

直接点击“阅读全文”即可访问daily-paper-computer-vision。

link: https://github.com/amusi/daily-paper-computer-vision

GAN

《Text to Image Synthesis Using Generative Adversarial Networks》

arXiv 2018

Architecture of the customised GAN-CLS

Each row contains 64×64 images generated by a different model from the top text description. The order is: GAN-CLS (first row), WGAN-CLS (second row), StackGAN Stage I(third row), Conditional Least Squares PGGAN (forth row), Conditional Wasserstein PGGAN(fifth row).

Abstract：从自然语言生成图像是最近条件生成模型的主要应用之一。除了测试我们对条件性，高维度分布进行建模的能力之外，文本到图像合成还具有许多令人兴奋和实际的应用，例如照片编辑或计算机辅助内容创建。使用生成对抗网络（GAN）已经取得了最新进展。本文首先对这些主题进行介绍，并讨论了现有技术模型的现状。此外，本文提出了Wasserstein GAN-CLS，这是一种基于Wasserstein距离的条件图像生成的新模型，可以保证稳定性。然后，展示了Wasserstein GAN-CLS的新型损失函数如何用于条件渐进式生长（Conditional Progressive Growing）GAN。与建议的损失相结合，该模型将仅使用句子级视觉语义的模型的最佳初始得分（在加州理工学院数据集上）提高了7.07％。唯一比有条件的Wasserstein渐进式增长GAN表现更好的模型是最近提出的使用词级视觉语义（word-level visual semantics）的AttnGAN。

arXiv：https://arxiv.org/abs/1805.00676

注：超级重磅文章！整整72页！

《Transferring GANs: generating images from limited data》

arXiv 2018

Transferring GANs: training source GANs

Abstract：通过微调将预训练网络的知识传递到新域是基于判别模型的应用的广泛使用的实践。据我们所知，这种做法尚未在生成性深层网络的背景下（the context of generative deep networks）进行研究。因此，我们研究应用于生成对抗网络的图像生成的域自适应（domain adaptation）。我们评估域适应的几个方面，包括目标域大小的影响，源域和目标域之间的相对距离，以及条件GAN的初始化。我们的结果表明，使用来自预训练网络的知识可以缩短收敛时间并且可以显著提高所生成图像的质量，尤其是当目标数据有限时。我们表明，即使在没有条件训练的情况下训练预训练模型，也可以为条件GAN绘制这些结论。我们的结果还表明，密度（density）可能比多样性更重要，具有一个或几个密集采样类的数据集可能比更多不同的数据集（如ImageNet或Places）更好的源模型。

arXiv：https://arxiv.org/abs/1805.01677

《MEGAN: Mixture of Experts of Generative Adversarial Networks for Multimodal Image Generation》

IJCAI 2018

The proposed architecture of MEGAN

Visual Inspection; CelebA dataset

Abstract：最近，生成对抗网络（GAN）在生成逼真图像方面表现出了很好的表现。然而，他们经常难以在给定数据集中学习复杂的基础模态（underlying modalities），导致生成质量差的图像。为了解决这个问题，我们提出了一种称为mixture of experts GAN（MEGAN）的新方法，这是一种多生成网络的集合方法。MEGAN中的每个生成网络专门用于生成具有特定模态子集的图像，例如图像类。我们提出的模型不是采用多个模态的手工聚类的单独步骤，而是通过 gating networks对多个生成网络的端到端学习进行训练， gating networks负责为给定条件选择合适的生成网络。我们采用分类重新参数化技巧，在选择生成器的同时保持梯度流动的分类决策。我们证明了个体生成器学习数据的不同且显著的子部分，并且对于CelebA获得了0.2470的多尺度结构相似性（MS-SSIM）得分，并且在CIFAR-10中获得了8.33的竞争性无监督初始得分。

arXiv：https://arxiv.org/abs/1805.02481v2

《Unpaired Multi-Domain Image Generation via Regularized Conditional GANs》

arXiv 2018

The framework of RegCGAN

Comparison results between RegCGAN and CycleGAN for the task of female and male

Abstract：在本文中，我们研究了多域（multi-domain）图像生成的问题，其目的是从不同的域生成相应的图像对。随着近年来生成模型的发展，图像生成取得了很大进展，并已应用于各种计算机视觉任务。然而，由于难以学习不同域图像的对应性，尤其是当未给出配对样本的信息时，多域图像生成可能无法实现期望的性能。为了解决这个问题，我们提出了规则化条件GAN（RegCGAN），它能够学习在没有配对训练数据的情况下生成相应的图像。 RegCGAN基于条件GAN，我们引入两个正则化器来指导模型学习不同域的相应语义。我们对未给出配对训练数据的若干任务评估所提出的模型，包括边缘和照片的生成，具有不同属性的面部的生成等。实验结果表明我们的模型可以成功地生成所有这些的相应图像，同时优于 baseline方法。我们还介绍了将RegCGAN应用于无监督域自适应的方法。

arXiv：https://arxiv.org/abs/1805.02456

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-07-05，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 CVer 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

[计算机视觉论文速递] 2018-07-05 GAN专场

[计算机视觉论文速递] 2018-07-05 GAN专场

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐