[计算机视觉论文速递] 2018-07-05 GAN专场

导言

这篇文章有4篇论文速递,都是GAN方向,包括根据文本生成图像和多域图像生成等方向。其中一篇是IJCAI 2018。

编辑: Amusi

校稿: Amusi

前戏

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、fork和pull。

直接点击“阅读全文”即可访问daily-paper-computer-vision

link: https://github.com/amusi/daily-paper-computer-vision

GAN

《Text to Image Synthesis Using Generative Adversarial Networks》

arXiv 2018

Architecture of the customised GAN-CLS

Each row contains 64×64 images generated by a different model from the top text description. The order is: GAN-CLS (first row), WGAN-CLS (second row), StackGAN Stage I(third row), Conditional Least Squares PGGAN (forth row), Conditional Wasserstein PGGAN(fifth row).

Abstract:从自然语言生成图像是最近条件生成模型的主要应用之一。除了测试我们对条件性,高维度分布进行建模的能力之外,文本到图像合成还具有许多令人兴奋和实际的应用,例如照片编辑或计算机辅助内容创建。使用生成对抗网络(GAN)已经取得了最新进展。本文首先对这些主题进行介绍,并讨论了现有技术模型的现状。此外,本文提出了Wasserstein GAN-CLS,这是一种基于Wasserstein距离的条件图像生成的新模型,可以保证稳定性。然后,展示了Wasserstein GAN-CLS的新型损失函数如何用于条件渐进式生长(Conditional Progressive Growing)GAN。与建议的损失相结合,该模型将仅使用句子级视觉语义的模型的最佳初始得分(在加州理工学院数据集上)提高了7.07%。唯一比有条件的Wasserstein渐进式增长GAN表现更好的模型是最近提出的使用词级视觉语义(word-level visual semantics)的AttnGAN。

arXiv:https://arxiv.org/abs/1805.00676

注:超级重磅文章!整整72页!

《Transferring GANs: generating images from limited data》

arXiv 2018

Transferring GANs: training source GANs

Abstract:通过微调将预训练网络的知识传递到新域是基于判别模型的应用的广泛使用的实践。据我们所知,这种做法尚未在生成性深层网络的背景下(the context of generative deep networks)进行研究。因此,我们研究应用于生成对抗网络的图像生成的域自适应(domain adaptation)。我们评估域适应的几个方面,包括目标域大小的影响,源域和目标域之间的相对距离,以及条件GAN的初始化。我们的结果表明,使用来自预训练网络的知识可以缩短收敛时间并且可以显著提高所生成图像的质量,尤其是当目标数据有限时。我们表明,即使在没有条件训练的情况下训练预训练模型,也可以为条件GAN绘制这些结论。我们的结果还表明,密度(density)可能比多样性更重要,具有一个或几个密集采样类的数据集可能比更多不同的数据集(如ImageNet或Places)更好的源模型。

arXiv:https://arxiv.org/abs/1805.01677

《MEGAN: Mixture of Experts of Generative Adversarial Networks for Multimodal Image Generation》

IJCAI 2018

The proposed architecture of MEGAN

Visual Inspection; CelebA dataset

Abstract:最近,生成对抗网络(GAN)在生成逼真图像方面表现出了很好的表现。然而,他们经常难以在给定数据集中学习复杂的基础模态(underlying modalities),导致生成质量差的图像。为了解决这个问题,我们提出了一种称为mixture of experts GAN(MEGAN)的新方法,这是一种多生成网络的集合方法。MEGAN中的每个生成网络专门用于生成具有特定模态子集的图像,例如图像类。我们提出的模型不是采用多个模态的手工聚类的单独步骤,而是通过 gating networks对多个生成网络的端到端学习进行训练, gating networks负责为给定条件选择合适的生成网络。我们采用分类重新参数化技巧,在选择生成器的同时保持梯度流动的分类决策。我们证明了个体生成器学习数据的不同且显著的子部分,并且对于CelebA获得了0.2470的多尺度结构相似性(MS-SSIM)得分,并且在CIFAR-10中获得了8.33的竞争性无监督初始得分。

arXiv:https://arxiv.org/abs/1805.02481v2

《Unpaired Multi-Domain Image Generation via Regularized Conditional GANs》

arXiv 2018

The framework of RegCGAN

Comparison results between RegCGAN and CycleGAN for the task of female and male

Abstract:在本文中,我们研究了多域(multi-domain)图像生成的问题,其目的是从不同的域生成相应的图像对。随着近年来生成模型的发展,图像生成取得了很大进展,并已应用于各种计算机视觉任务。然而,由于难以学习不同域图像的对应性,尤其是当未给出配对样本的信息时,多域图像生成可能无法实现期望的性能。为了解决这个问题,我们提出了规则化条件GAN(RegCGAN),它能够学习在没有配对训练数据的情况下生成相应的图像。 RegCGAN基于条件GAN,我们引入两个正则化器来指导模型学习不同域的相应语义。我们对未给出配对训练数据的若干任务评估所提出的模型,包括边缘和照片的生成,具有不同属性的面部的生成等。实验结果表明我们的模型可以成功地生成所有这些的相应图像,同时优于 baseline方法。我们还介绍了将RegCGAN应用于无监督域自适应的方法。

arXiv:https://arxiv.org/abs/1805.02456

原文发布于微信公众号 - CVer(CVerNews)

原文发表时间:2018-07-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

解决机器学习问题有通法!看这一篇就够了!

2024
来自专栏AI深度学习求索

CVPR2018|Domain Adaptation Segmentation-pix2pixHD详解

论文:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GA...

4271
来自专栏marsggbo

论文笔记系列-Neural Architecture Search With Reinforcement Learning

神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的。在本篇论文中,作者使用 递归网络去省城神经网络的模型描述,并且使用 增强学习训练RN...

3943
来自专栏SIGAI学习与实践平台

自然场景文本检测识别技术综述

白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语言混合文本等应...

6462
来自专栏AI科技评论

干货 | 自从学了这个方法,深度学习再也不愁没钱买数据集了

深度学习大牛吴恩达曾经说过:做AI研究就像造宇宙飞船,除了充足的燃料之外,强劲的引擎也是必不可少的。假如燃料不足,则飞船就无法进入预定轨道。而引擎不够强劲,飞船...

3086
来自专栏机器之心

AAAI 2018 | 南京大学提出用于聚类的最优间隔分布机

3725
来自专栏人工智能

机器学习-从高频号码中预测出快递送餐与广告骚扰

由头 1、笔者最近在做机器学习嘛,上次发了一篇文章,这周发现有大问题,此次算是对上篇的补充与说明。 2、算法基本完成,在进行收尾的工作,今天共享给大家思路,涉及...

2115
来自专栏机器学习和数学

[高大上的DL] BEGAN: Boundary Equilibrium GAN

自己基本翻译了BEGAN,错误在所难免,希望有大神可以给我留言,我们也可以交流一下训练的一些事情。讲道理,我特别希望有人给我留言,不然我感觉我每天就是在自嗨!囧...

4093
来自专栏GAN&CV

BEGAN解读

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_25737169/article/d...

1182
来自专栏SIGAI学习与实践平台

自然场景文本检测识别技术综述

番外 青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺...

2.4K2

扫码关注云+社区

领取腾讯云代金券