微软的AI技术可将你描述的内容绘制成图像 小白也能画出蒙娜丽莎

谷歌可能教会了人工智能如何涂鸦,但对计算机来说,绘制更复杂的东西是很困难的。想象一下,让电脑画一只“黑翅膀和短喙的黄鸟”;这听起来有点棘手。不过,微软的研究人员一直在开发一种基于人工智能的技术来实现这一目标。根据该团队最近发布的一篇论文,它生成的图像来自文本描述,其准确程度令人吃惊。与之前最先进的文本转换成图像的技术相比,图像质量上产生了近三倍的提升。

  • 论文地址:https://arxiv.org/abs/1711.10485

研究人员简单地将这种技术称为“绘图机器人”,它可以生成各种图像,从普通的田园场景,如放牧,到荒谬的,如漂浮的双层巴士。每个图像都包含了文本描述中没有的细节,这表明人工智能包含了人工想象。系统并没有根据你的输入找到一个已有的图像,而是创建了真正的绘图。“如果你去百度里搜索“鸟”的关键字,你就会得到一幅鸟的照片。”但在这项技术中,这些照片是由电脑创建的,从头开始, 一个像素接着一个像素。”何晓东说道,他是微软实验室的深度学习技术中心的首席研究员和研究经理。“这些鸟可能不存在于现实世界中——它们只是我们电脑想象中的鸟类的一个样子。”

绘图机器人解决了计算机视觉和自然语言处理的交叉点难题,这是何晓东和他的同事在过去的5年里主要探索的。他们开始使用自动写入图片说明的技术——CaptionBot,随后他们开始研究一种可以回答人们询问关于图像的问题的技术,比如物体的位置或属性,这对盲人特别有帮助。

这些研究工作需要训练机器学习模型来识别物体、解释动作和用自然语言进行交谈。“现在我们想用文本来生成图像。”,微软的研究员黄秋元说道。“所以,这是一个循环。”

张鹏川是团队的一名助理研究员,他认为图像生成是一项更具挑战性的任务,因为这一过程需要绘图机器人来想象在图片说明中没有包含的细节。他说:“这意味着你需要你的机器学习算法来运行你的人工智能来想象图像中缺失的部分。”

图像生成 微软绘图机器人的核心是一种被称为“生成对抗网络(GAN)”的技术。该网络由两个机器学习模型组成,一个从文本描述生成图像,另一个被称为鉴别器,它使用文本描述来判断生成图像的真实性。生成器试图通过鉴别器来获取假图片;鉴别器从不希望被愚弄,所以在一起工作时,鉴别器将生成器推向完美。

微软的绘图机器人被训练在包含配对图像和说明的数据集上,这使得模型能够学习如何将单词与这些单词的视觉表现相匹配。例如,当说明描绘“鸟”的时候,它学会了生成鸟的图像,同样地,它也学会了鸟的图片应该是什么样子。

当从简单的文本描述中生成图像时,比如蓝色的鸟或常青树,生成对抗网络的工作表现很好,但质量却在那些具有复杂描述的文本上停滞不前,例如“一只绿冠带有黄色翅膀和红腹的鸟”。这是因为整句话都是对生成器的一个输入。描述的详细信息丢失了。其结果是,生成的图像是一种模糊的绿色-黄红色的鸟,而无法与描述的内容紧密匹配。

当我们画图的时候,我们会反复地参考文本,并密切注意描述我们所画图像区域的文字。为了捕捉人类的这一特质,研究人员创造了一种他们称之为“ attentional GAN或AttnGAN”的东西,即“注意力生成对抗网络”。注意力生成对抗网络在数学上代表人类注意力的概念。它通过将输入文本分解为单个单词,并将这些单词与图像的特定区域相匹配来完成这一工作。

“注意力是一个人的概念;我们用数学来计算,”何晓东解释道。

该模型还能从训练数据中了解到人们所说的常识,并将这个学术上的概念引入到想象的细节中去。

“从数据中,机器学习算法学习了关于这种鸟的常识,”张鹏川说道。作为一项测试,研究小组对用绘画机器人馈送了一些荒谬的图片的说明,比如“一辆红色的双层巴士漂浮在湖面上。”它产生了一种模糊的的形象:一艘有两层甲板的船和一辆双层巴士, 漂浮在一个被群山环绕的湖上。

张鹏川解释说:“我们可以控制我们所描述的东西,看看机器是如何反应的。我们可以对机器学习的东西进行测试。这台机器有一些背景知识,但它仍然可以按照你的要求去做,也许有时候,它看起来有点可笑。”

实际应用 从文本到图像的生成技术可以转移到实际应用中,充当画家和室内设计师的草图助手,或者作为语音激活照片优化的工具。当有了更多的计算能力之后,张鹏川认为这项技术可以基于电影剧本来制作动画电影,从而减少一部分人力。

但目前,这项技术还不完善。仔细检查图像几乎总是会发现一些瑕疵,这些缺陷清楚地表明,这只是台计算机在创造图像,而不是人类。

然而,据何晓东所说,注意力生成对抗网络的图像质量比一流的“生成对抗网络”高了近三倍。“人工智能和人类生活在同一个世界里,他们必须有一种相互交流的方式,”他解释说。“语言和视觉是人类和机器相互交流的两种最重要的方式。”

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

专家解读DeepMind最新论文:深度学习模型复现大脑网格细胞

1777
来自专栏人工智能头条

AI变身记:不光能有人的智能,还要像狗一样“思考”

1384
来自专栏AI科技评论

学界 | DeepMind解密黑箱的第一步:原来神经网络的认知原理和人类是一样的!

AI 科技评论按:因为AlphaGo而名声大噪的人工智能公司DeepMind近期发表了一篇论文介绍自己在神经网络的解释性问题上最新探索。论文被ICML接受后,D...

3237
来自专栏新智元

掌握这些问题,成为 Facebook 机器学习工程师

【新智元导读】彭博社最近推出了一些列大公司面试指南,其中包括Facebook、Uber和高盛等大公司。那么,如果想进入Facebook做一名机器学习工程师,需要...

4166
来自专栏AI科技评论

业界| 小米宣称人脸检测算法准确率位列FDDB全球第一

昨日下午,小米科技联合创始人黄江吉在微博上宣布,小米人脸检测新算法在FDDB(基于深度卷积网络:Faster RCNN Bootstrapped by Hard...

3439
来自专栏腾讯云技术沙龙

罗冬日:深度学习在语音识别上的应用

我今天演讲主要分四个部分,第一个是分享语音识别概述,然后是深度神经网络的基础;接下来就是深度学习在语音识别声学模型上面的应用,最后要分享的是语音识别难点以及未来...

3528
来自专栏机器之心

模拟世界的模型:谷歌大脑与Jürgen Schmidhuber提出「人工智能梦境」

选自arXiv 作者:David Ha、Jürgen Schmidhuber 机器之心编译 人类可以在应对各种情况时在大脑中事先进行充分思考,那么人工智能也可以...

3218
来自专栏大数据和云计算技术

深度学习的历史和趋势

引言: 本文是黄文辉同学的第4篇文章,前面三篇分别是: SparkStreaming窗口操作 sqoop数据导入总结 SparkStreaming入门 最近AI...

3544
来自专栏机器之心

入门 | 学完了在线课程?如何开启深度学习论文的阅读模式

在一个 Quora 问答《I want to pursue machine learning as a career but not sure if I am ...

821
来自专栏SimpleAI

错看一头大象后,这个AI“疯了”!

在一项新的研究中,计算机科学家发现,人工智能无法通过儿童可轻松完成的“视力检测”。

732

扫码关注云+社区