微软的AI技术可将你描述的内容绘制成图像 小白也能画出蒙娜丽莎

谷歌可能教会了人工智能如何涂鸦,但对计算机来说,绘制更复杂的东西是很困难的。想象一下,让电脑画一只“黑翅膀和短喙的黄鸟”;这听起来有点棘手。不过,微软的研究人员一直在开发一种基于人工智能的技术来实现这一目标。根据该团队最近发布的一篇论文,它生成的图像来自文本描述,其准确程度令人吃惊。与之前最先进的文本转换成图像的技术相比,图像质量上产生了近三倍的提升。

  • 论文地址:https://arxiv.org/abs/1711.10485

研究人员简单地将这种技术称为“绘图机器人”,它可以生成各种图像,从普通的田园场景,如放牧,到荒谬的,如漂浮的双层巴士。每个图像都包含了文本描述中没有的细节,这表明人工智能包含了人工想象。系统并没有根据你的输入找到一个已有的图像,而是创建了真正的绘图。“如果你去百度里搜索“鸟”的关键字,你就会得到一幅鸟的照片。”但在这项技术中,这些照片是由电脑创建的,从头开始, 一个像素接着一个像素。”何晓东说道,他是微软实验室的深度学习技术中心的首席研究员和研究经理。“这些鸟可能不存在于现实世界中——它们只是我们电脑想象中的鸟类的一个样子。”

绘图机器人解决了计算机视觉和自然语言处理的交叉点难题,这是何晓东和他的同事在过去的5年里主要探索的。他们开始使用自动写入图片说明的技术——CaptionBot,随后他们开始研究一种可以回答人们询问关于图像的问题的技术,比如物体的位置或属性,这对盲人特别有帮助。

这些研究工作需要训练机器学习模型来识别物体、解释动作和用自然语言进行交谈。“现在我们想用文本来生成图像。”,微软的研究员黄秋元说道。“所以,这是一个循环。”

张鹏川是团队的一名助理研究员,他认为图像生成是一项更具挑战性的任务,因为这一过程需要绘图机器人来想象在图片说明中没有包含的细节。他说:“这意味着你需要你的机器学习算法来运行你的人工智能来想象图像中缺失的部分。”

图像生成 微软绘图机器人的核心是一种被称为“生成对抗网络(GAN)”的技术。该网络由两个机器学习模型组成,一个从文本描述生成图像,另一个被称为鉴别器,它使用文本描述来判断生成图像的真实性。生成器试图通过鉴别器来获取假图片;鉴别器从不希望被愚弄,所以在一起工作时,鉴别器将生成器推向完美。

微软的绘图机器人被训练在包含配对图像和说明的数据集上,这使得模型能够学习如何将单词与这些单词的视觉表现相匹配。例如,当说明描绘“鸟”的时候,它学会了生成鸟的图像,同样地,它也学会了鸟的图片应该是什么样子。

当从简单的文本描述中生成图像时,比如蓝色的鸟或常青树,生成对抗网络的工作表现很好,但质量却在那些具有复杂描述的文本上停滞不前,例如“一只绿冠带有黄色翅膀和红腹的鸟”。这是因为整句话都是对生成器的一个输入。描述的详细信息丢失了。其结果是,生成的图像是一种模糊的绿色-黄红色的鸟,而无法与描述的内容紧密匹配。

当我们画图的时候,我们会反复地参考文本,并密切注意描述我们所画图像区域的文字。为了捕捉人类的这一特质,研究人员创造了一种他们称之为“ attentional GAN或AttnGAN”的东西,即“注意力生成对抗网络”。注意力生成对抗网络在数学上代表人类注意力的概念。它通过将输入文本分解为单个单词,并将这些单词与图像的特定区域相匹配来完成这一工作。

“注意力是一个人的概念;我们用数学来计算,”何晓东解释道。

该模型还能从训练数据中了解到人们所说的常识,并将这个学术上的概念引入到想象的细节中去。

“从数据中,机器学习算法学习了关于这种鸟的常识,”张鹏川说道。作为一项测试,研究小组对用绘画机器人馈送了一些荒谬的图片的说明,比如“一辆红色的双层巴士漂浮在湖面上。”它产生了一种模糊的的形象:一艘有两层甲板的船和一辆双层巴士, 漂浮在一个被群山环绕的湖上。

张鹏川解释说:“我们可以控制我们所描述的东西,看看机器是如何反应的。我们可以对机器学习的东西进行测试。这台机器有一些背景知识,但它仍然可以按照你的要求去做,也许有时候,它看起来有点可笑。”

实际应用 从文本到图像的生成技术可以转移到实际应用中,充当画家和室内设计师的草图助手,或者作为语音激活照片优化的工具。当有了更多的计算能力之后,张鹏川认为这项技术可以基于电影剧本来制作动画电影,从而减少一部分人力。

但目前,这项技术还不完善。仔细检查图像几乎总是会发现一些瑕疵,这些缺陷清楚地表明,这只是台计算机在创造图像,而不是人类。

然而,据何晓东所说,注意力生成对抗网络的图像质量比一流的“生成对抗网络”高了近三倍。“人工智能和人类生活在同一个世界里,他们必须有一种相互交流的方式,”他解释说。“语言和视觉是人类和机器相互交流的两种最重要的方式。”

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

研究人员开发出可描绘大脑神经元的人工智能

谷歌公司和德国马普学会的研究人员联合开发出了一种回归神经网络,能够描绘出人类大脑的神经元图谱。

652
来自专栏磐创AI技术团队的专栏

十大预训练模型,助力入门深度学习(第1部分 - 计算机视觉)

对于希望运用某个现有框架来解决自己的任务的人来说,预训练模型可以帮你快速实现这一点。通常来说,由于时间限制或硬件水平限制大家往往并不会从头开始构建并训练模型,这...

893
来自专栏AI科技评论

CVPR 2018 中国论文分享会之「分割与检测」

本文为 2018 年 5 月 11 日在微软亚洲研究院进行的 CVPR 2018 中国论文宣讲研讨会中第 5 个 Session ——「Segmentation...

1134
来自专栏专知

【网络节点表示学习教程】在向量空间中启用网络分析和推理,清华大学崔鹏博士最新分享

【导读】第32届AAAI大会-AAAI 2018已经于2月2号-7号在美国新奥尔良召开,清华大学崔鹏博士在大会作了精彩的报告“Network Represent...

3795
来自专栏新智元

【ECCV 2018】Facebook开发姿态转换模型,只需一张照片就能让它跳舞(视频)

DensePose 是 Facebook 研究员 Natalia Neverova、Iasonas Kokkinos 和法国 INRIA 的 Rıza Alp ...

512
来自专栏量子位

神经网络是怎样理解图片的?谷歌大脑研究员详解特征可视化

夏乙 编译整理 量子位 出品 | 公众号 QbitAI 我们总是听说人工智能在图像识别上超越了人类,刷脸也逐渐成了生活中司空见惯的事儿。这些图像识别技术背后,通...

34611
来自专栏社区的朋友们

《 NEXT 技术快报》:计算机视觉篇(上)

图像生成是计算机视觉中非常重要的一类问题,也有着很长的研究历史。同时这一类问题也和动画制作有着紧密的关联。广义的说来,凡是生成新的图像内容的相关问题都可以归为图...

2890
来自专栏ATYUN订阅号

如何使虚拟特技人模仿的动作流畅自然?Berkeley实验室利用RSI结合ET技术另辟蹊径

AiTechYun 编辑:chux ? 运动控制问题作为强化学习的基准,深度强化学习方法无论对操纵还是运动型任务都十分有效。然而,经过深度强化学习训练的人体模型...

2696
来自专栏新智元

【解密阿老师】 从 AlphaGo 到Master, 最大优势是通用算法

【新智元导读】AlphaGo 系统基于树搜索,由神经网络驱动。然而,所有这些技术都不是新的,也被其他围棋 AI 的开发者使用。那么,是什么让 AlphaGo 如...

50412
来自专栏AI科技评论

热议 | 朋友见过蒙娜丽莎版的阿凡达吗?

AI科技评论按:图像风格迁移一直都是一个十分有趣的研究方向,很多图像迁移工作都备受关注,比如颜色迁移,纹理迁移和风格转换。在图片分享类社交媒体的加持下,这些工作...

753

扫码关注云+社区