【GAN画花鸟】零样本学习,对抗生成网络从文本描述生成图像

【新智元导读】这是一项从图像的文字描述合成出图像的研究,在自然语言表征和图像合成研究的基础上,研究者开发了简单有效的 GAN 架构和训练策略,实现了从人类对花和鸟的描述中合成图像。

论文地址:https://github.com/zsdonghao/text-to-image

根据图像的文本描述自动合成出图像

根据图像的文本描述自动合成出现实风格的图像既有趣又有用,但目前的 AI 系统离实现这一目标还很远。然而,近年来出现了通用且强大的循环神经网络架构,可以学习判别性的文本特征表征。同时,深度卷积生成对抗网络(GAN)也已经开始生成特定类型的图像,如面孔、专辑封面和房间内饰等,十分引人注目。在本研究中,我们开发了一种新颖的 GAN 架构,有效地桥接了文本和图像建模中的这些进展,将视觉概念从字符转换为像素。研究展示我们提出的架构从详细的文字描述中产生鸟和花的合理图像的能力。

研究中,我们将人类书写的、单句形式的图像描述直接转换成图像像素。例如,“这只小鸟有一个短而尖的橙色的喙和白色的肚子”,或者“这朵花的花瓣是粉红色的,另一朵是黄色的”。从视觉描述中生成图像一直是研究兴趣点之一,但还远未解决。

图1.文本描述生成的图像示例。左:描述来自零样本数据,是系统从未见过的文字;右:描述来自训练集。

用 attribute 表示属性很好,但问题在于 attribute 可能需要特定的领域知识。相比之下,自然语言提供了通用且灵活的交互界面,来描述任何视觉类别空间中的对象。理想情况下,我们应该将文本描述的通用性和 attribute 的判别性结合起来。

为了解决这个具有挑战性的问题,需要解决两个子问题:首先,学习指向重要视觉细节的文本特征表征; 第二,使用这些特征来合成以假乱真的图像。幸运的是,在过去几年里,深度学习已经在这两个子问题——自然语言表征和图像合成方面取得了巨大的进步,我们的努力将以此为基础展开。

然而,深度学习尚未解决的一个难题是,以文本描述为条件生成的图像分布是高度多模态的,在某种意义上说,某一种文字描述可能对应许多正确的像素配置。从图像到文本的转化也受到这个问题的影响。

这种多模态对于生成对抗网络来说是非常自然的应用,其中生成网络被优化以愚弄用于对抗训练的判别器。通过调节生成器和判别器,我们可以自然地为这种现象建模,因为判别网络是一个能够“智能地”自适应的损失函数。

方法和网络架构

我们的主要贡献是开发简单有效的 GAN 架构和训练策略,使得从人类对花和鸟的描述中合成图像。我们主要使用了 Caltech-UCSD Birds 数据集和 Oxford-102 Flowers 数据集,每个图像我们收集了5 个文本描述,作为我们的评估设定。我们的模型在训练类别的一个子集上进行了训练,并在训练集和测试集(即零样本从文字合成图像)上展示了其性能。除了鸟和花之外,我们还将模型应用于MSCOCO 数据集中更一般的图像和文本描述上。

生成对抗网络(GAN)由发生器 G 和判别器 D 组成,它们在极小化极大算法中竞争:判别器尝试区分将合成图像和真实训练数据区分开来,而生成器试图愚弄判别器。D和G的博弈在V (D,G)上展开:

我们的方法是基于由混合字符级卷积循环神经网络编码的文本特征,训练一种深度卷积生成对抗网络(DC-GAN)。

算法1 我们的训练过程

网络架构

图2:我们的文本-条件卷积GAN架构,文本编码φ(t) 同时用于生成器和鉴别器。

图3:Zero-shot(来自未知测试集类别的文本)生成的鸟的图像,使用GAN,GAN-CLS,GAN-INT和GAN-INT-CLS。

图4:Zero-shot 生成花的图像,使用GAN,GAN-CLS,GAN-INT和GAN-INT-CLS。所有变量都生成了合理的图像。虽然在训练期间没有展示某些测试类别的形状(例如第3列和第4列),但保留了颜色信息。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-06-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

提高驾驶技术:用GAN去除(爱情)动作片中的马赛克和衣服

作者:達聞西 量子位 已获授权编辑发布 作为一名久经片场的老司机,早就想写一些探讨驾驶技术的文章。这篇就介绍利用生成式对抗网络(GAN)的两个基本驾驶技能: 1...

4386
来自专栏IT派

这些资源你肯定需要!超全的GAN PyTorch+Keras实现集合

生成对抗网络及其变体的实现分为基于 Keras 和基于 PyTorch 两个版本。它们都是按照原论文实现的,但模型架构并不一定完全和原论文相同,作者关注于实现这...

1443
来自专栏机器之心

资源 | 带自注意力机制的生成对抗网络,实现效果怎样?

1653
来自专栏AI研习社

AI 助你无码看片,生成对抗网络(GAN)大显身手

作为一名久经片场的老司机,早就想写一些探讨驾驶技术的文章。这篇就介绍利用生成式对抗网络(GAN)的两个基本驾驶技能: 1) 去除(爱情)动作片中的马赛克 2) ...

1.8K3
来自专栏AI科技评论

开发 | 提高驾驶技术:用GAN去除(爱情)动作片中的马赛克和衣服

作为一名久经片场的老司机,早就想写一些探讨驾驶技术的文章。这篇就介绍利用生成式对抗网络(GAN)的两个基本驾驶技能: 1) 去除(爱情)动作片中的马赛克 2) ...

5986
来自专栏新智元

【GAN全局实用手册】谷歌大脑最新研究,Goodfellow力荐

【新智元导读】随着GAN越来越多的应用到实际研究当中,其技术中的缺陷与漏洞也随之出现。从实际角度对GAN的当前状态进行深入挖掘与理解就显得格外重要。来自Goog...

1100
来自专栏AI研习社

GAN 的理解与 TensorFlow 的实现

前言 本文会从头介绍生成对抗式网络的一些内容,从生成式模型开始说起,到 GAN 的基本原理,InfoGAN,AC-GAN 的基本科普,如果有任何有错误的地方...

3508
来自专栏养码场

技术老司机开车:用GAN去除(爱情)动作片中的马赛克和衣服!

作为一名久经片场的老司机,早就想写一些探讨“驾驶技术”的文章。这篇就介绍利用生成式对抗网络(GAN)的两个基本驾驶技能:

4043
来自专栏CreateAMind

图像结构样式分开生成的生成模型论文代码

Generative Image Modeling using Style and Structure Adversarial Networks

932
来自专栏人工智能

GAN图像转换之从pix2pix到cycle GAN

阅读本文大约需要15分钟 该节分享两篇使用GAN的方法来进行图像转换方面的文章,分别是pix2pix GAN 和 Cycle GAN,两篇文章基本上是相同的作者...

6929

扫码关注云+社区

领取腾讯云代金券