微软的AI技术可将你描述的内容绘制成图像 小白也能画出蒙娜丽莎

谷歌可能教会了人工智能如何涂鸦,但对计算机来说,绘制更复杂的东西是很困难的。想象一下,让电脑画一只“黑翅膀和短喙的黄鸟”;这听起来有点棘手。不过,微软的研究人员一直在开发一种基于人工智能的技术来实现这一目标。根据该团队最近发布的一篇论文,它生成的图像来自文本描述,其准确程度令人吃惊。与之前最先进的文本转换成图像的技术相比,图像质量上产生了近三倍的提升。

  • 论文地址:https://arxiv.org/abs/1711.10485

研究人员简单地将这种技术称为“绘图机器人”,它可以生成各种图像,从普通的田园场景,如放牧,到荒谬的,如漂浮的双层巴士。每个图像都包含了文本描述中没有的细节,这表明人工智能包含了人工想象。系统并没有根据你的输入找到一个已有的图像,而是创建了真正的绘图。“如果你去百度里搜索“鸟”的关键字,你就会得到一幅鸟的照片。”但在这项技术中,这些照片是由电脑创建的,从头开始, 一个像素接着一个像素。”何晓东说道,他是微软实验室的深度学习技术中心的首席研究员和研究经理。“这些鸟可能不存在于现实世界中——它们只是我们电脑想象中的鸟类的一个样子。”

绘图机器人解决了计算机视觉和自然语言处理的交叉点难题,这是何晓东和他的同事在过去的5年里主要探索的。他们开始使用自动写入图片说明的技术——CaptionBot,随后他们开始研究一种可以回答人们询问关于图像的问题的技术,比如物体的位置或属性,这对盲人特别有帮助。

这些研究工作需要训练机器学习模型来识别物体、解释动作和用自然语言进行交谈。“现在我们想用文本来生成图像。”,微软的研究员黄秋元说道。“所以,这是一个循环。”

张鹏川是团队的一名助理研究员,他认为图像生成是一项更具挑战性的任务,因为这一过程需要绘图机器人来想象在图片说明中没有包含的细节。他说:“这意味着你需要你的机器学习算法来运行你的人工智能来想象图像中缺失的部分。”

图像生成 微软绘图机器人的核心是一种被称为“生成对抗网络(GAN)”的技术。该网络由两个机器学习模型组成,一个从文本描述生成图像,另一个被称为鉴别器,它使用文本描述来判断生成图像的真实性。生成器试图通过鉴别器来获取假图片;鉴别器从不希望被愚弄,所以在一起工作时,鉴别器将生成器推向完美。

微软的绘图机器人被训练在包含配对图像和说明的数据集上,这使得模型能够学习如何将单词与这些单词的视觉表现相匹配。例如,当说明描绘“鸟”的时候,它学会了生成鸟的图像,同样地,它也学会了鸟的图片应该是什么样子。

当从简单的文本描述中生成图像时,比如蓝色的鸟或常青树,生成对抗网络的工作表现很好,但质量却在那些具有复杂描述的文本上停滞不前,例如“一只绿冠带有黄色翅膀和红腹的鸟”。这是因为整句话都是对生成器的一个输入。描述的详细信息丢失了。其结果是,生成的图像是一种模糊的绿色-黄红色的鸟,而无法与描述的内容紧密匹配。

当我们画图的时候,我们会反复地参考文本,并密切注意描述我们所画图像区域的文字。为了捕捉人类的这一特质,研究人员创造了一种他们称之为“ attentional GAN或AttnGAN”的东西,即“注意力生成对抗网络”。注意力生成对抗网络在数学上代表人类注意力的概念。它通过将输入文本分解为单个单词,并将这些单词与图像的特定区域相匹配来完成这一工作。

“注意力是一个人的概念;我们用数学来计算,”何晓东解释道。

该模型还能从训练数据中了解到人们所说的常识,并将这个学术上的概念引入到想象的细节中去。

“从数据中,机器学习算法学习了关于这种鸟的常识,”张鹏川说道。作为一项测试,研究小组对用绘画机器人馈送了一些荒谬的图片的说明,比如“一辆红色的双层巴士漂浮在湖面上。”它产生了一种模糊的的形象:一艘有两层甲板的船和一辆双层巴士, 漂浮在一个被群山环绕的湖上。

张鹏川解释说:“我们可以控制我们所描述的东西,看看机器是如何反应的。我们可以对机器学习的东西进行测试。这台机器有一些背景知识,但它仍然可以按照你的要求去做,也许有时候,它看起来有点可笑。”

实际应用 从文本到图像的生成技术可以转移到实际应用中,充当画家和室内设计师的草图助手,或者作为语音激活照片优化的工具。当有了更多的计算能力之后,张鹏川认为这项技术可以基于电影剧本来制作动画电影,从而减少一部分人力。

但目前,这项技术还不完善。仔细检查图像几乎总是会发现一些瑕疵,这些缺陷清楚地表明,这只是台计算机在创造图像,而不是人类。

然而,据何晓东所说,注意力生成对抗网络的图像质量比一流的“生成对抗网络”高了近三倍。“人工智能和人类生活在同一个世界里,他们必须有一种相互交流的方式,”他解释说。“语言和视觉是人类和机器相互交流的两种最重要的方式。”

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

一文带你理解深度学习的局限性

深度学习:几何视图 深度学习最令人惊讶的特点便是极易上手。十年以前,没有人可以猜得到经过梯度下降法训练过的简单参数模型可以在机器感知问题上实现如此惊人的结果。现...

2058
来自专栏AI

什么是深度学习?

深度学习是机器学习的一个子领域,涉及被称为人工神经网络的大脑的结构和功能所启发的算法。

2507
来自专栏AI科技评论

预热 | 英特尔通过预测变量实现策略性强化学习,夺冠 Doom 游戏竞赛(ICLR 2017)

AI科技评论按:ICLR 2017 将于4月24-26日在法国土伦举行,届时AI科技评论的编辑们也将前往法国带来一线报道。在这个深度学习会议举办之前,AI科技评...

3429
来自专栏CSDN技术头条

解密最接近人脑的智能学习机器 ——深度学习及并行化实现

训练深层模型是长期以来的难题,近年来以层次化、逐层初始化为代表的一系列方法的提出给训练深层模型带来了希望,并在多个应用领域获得了成功。深层模型的并行化框架和训练...

1915
来自专栏新智元

复旦、清华和英特尔中国研究院ICCV新作:完全脱离预训练模型的目标检测方法

【新智元导读】复旦大学、清华大学和英特尔中国研究院合作提出的一种新型的目标检测方法 (DSOD) ,能够在完全脱离预训练模型的情况下,使用有限训练数据,达到st...

2493
来自专栏人工智能头条

一文带你理解深度学习的局限性

862
来自专栏新智元

关于 NIPS 2016 你应该知道的 50 件事情

【新智元导读】Andreas Stuhlmüller 目前在斯坦福 Noah Goodman 教授 Computation & Cognition lab 当博...

2994
来自专栏机器之心

学界 | 复现深度强化学习结果所面临的挑战与建议

选自arXiv 机器之心编译 参与:蒋思源、路雪 本论文对强化学习顶尖试验结果的复现性进行了详细的探讨,并讨论了超参数和随机种子等变量对强化学习模型复现性的重要...

2568
来自专栏AI科技评论

干货 | 中科院计算所王晋东:迁移学习的发展和现状 | 分享总结

AI科技评论按:伴随着最近几年的机器学习热潮,迁移学习 (Transfer Learning)也成为目前最炙手可热的研究方向。 迁移学习强调通过不同领域之间的知...

3447
来自专栏机器之心

学界 | 伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D

2585

扫描关注云+社区