学界 | 来认识认识微软的「画家 AI」

AI 科技评论按:近年来图像生成模型方面的研究可谓是突飞猛进,内容的丰富程度和清晰程度都在不断刷新着以往的记录。终于,微软研究院的这篇新论文突破了另一个瓶颈,能自由地根据文本描述生成逼真的图像。

微软在官方博客上也发出了对这篇论文的通俗介绍,AI 科技评论编译如下。

试想一下,你手中拿着稿纸和画笔,然后让你画一张鸟,这只鸟要有黄色的身体,黑色的翅膀和短短的鸟喙。你大概会先画出鸟的大概轮廓,之后检查修改一下,继续想想黄色的身体部分,然后用黄色的画笔填充鸟的身体。接着再用黑色的画笔完成鸟的翅膀,最终检查一下,画上短短的有些发亮的鸟喙。为了使之更生动形象,你或许会画上鸟所栖息的树干。

如今,机器人也可以如你一样做到这一点了!

微软研究院正在开发的新 AI 能够从整句文本描述中准确捕捉各个词语的含义并生成图像。论文中表示,根据行业标准测试的结果,这项技术产生的图像质量与之前的文本到图像生成技术相比,提高了将近三倍。

研究员们把它简单地称之为绘图机器人,该技术可以生成从普通的田园风光(如放牧家畜)到荒谬无意义的(如浮动的双层巴士)所有图像。每幅图像都包含了文字描述中没有提及的细节,表明该人工智能技术拥有一种人造的想象力。

「如果你用 Bing 搜索一只鸟,你会得到一张鸟的图片。但是在这里,图片是由计算机逐个像素地从头开始创建的,」位于微软在华盛顿州雷蒙德市的微软研究院深度学习技术中心的首席研究员和研究主管何晓东表示,「这些鸟在现实世界中可能不会存在——它们只是表明了计算机对鸟类想像力的一个方面」。

这项绘图机器人技术完成了他和他的同事在过去五年中,探索过的计算机视觉和自然语言处理的交叉学科研究。他们从自动编写图像描述 AI(CaptionBot)的技术开始,然后转向另外一种技术,回答人类对图像提出的问题,例如对象的位置或属性,这点对盲人特别有用。

这些研究工作需要训练机器学习模型来识别对象,完成行为和自然语言间的交互。

「现在我们要用文字来生成图像,」该组织的博士后研究员,论文合著者 Qiuyuan Huang 表示,「所以,这就是一个循环。」

图像生成是一个比图像字幕更具挑战性的任务,团队中的副研究员 Pengchuan Zhang 补充说,因为这个过程需要绘图机器人想像没有包含在标题中的细节。他说:「这意味着你需要运行人工智能的机器学习算法来想象一些图像中的缺失部分。」

细致的图像生成

微软绘图机器人的核心是一种被称为「生成对抗网络」(Generative Adversarial Network,GAN)的技术。网络由两个机器学习模型组成,一个是生成器,从文本描述生成图像,另一个称为鉴别器,使用文本描述来判断生成图像的真实性。生成器试图通过假照片骗过鉴别器,同时鉴别器进行判断。二者迭代更新,不断提高生成器的表现。

微软的绘图机器人在包含对应图像和图像描述的数据集上进行了训练,这可以让模型学习如何将单词与这些单词的可视化图片表示相匹配。例如, GAN 学会在标题说鸟的时候生成鸟的图像,并且同样学习鸟的图像应该是什么样的。何晓东说:「这是我们相信机器可以学习的根本原因。」

当从简单的文字描述(例如蓝鸟或常青树)产生图像时, GAN 可以很好地工作,但在更复杂的文本描述中效果不佳,例如具有绿色的冠、黄色的翅膀和红色腹部的鸟。这是因为整个句子作为了生成器的唯一一个输入,其中的详细信息发生了丢失。因此,生成的图像是一种模糊的带绿色和微黄色的鸟,而不是与描述中的词汇紧密匹配。

在人类的绘画过程中,我们会反复看描述文本,花不少注意力确认我们正在绘制的图像和对应单词描述是否相符。为了捕捉这种人的特质,研究人员创建了称为 attentional GAN或 AttnGAN 的新模型,它在数学上模拟了人类关注的概念。它将输入文本分解为单个单词并将这些单词与图像的特定区域相匹配,从而实现目标。

「注意力是来自人类的概念,我们这次用数学的方式把注意力变得可以计算。」何晓东解释说。

该模型还从训练数据中学习到了人类称为常识的东西,并且利用这个学习的概念来填充留在想象中图像的细节。例如,由于训练数据中的许多鸟类图像中,鸟都是坐在树枝上的, AttnGAN 生成的图像里鸟也就栖息在树枝上,除非文本另有规定。

「从数据来看,机器学习算法学到了鸟站在树枝上应该就属于常识,」Zhang 说。作为测试,研究人员们给绘图机器人输入了奇怪的文本描述,例如「一辆红色的双层巴士漂浮在湖面上」。它生成了一个模糊的,飘逸的双层巴士图像,类似于两层甲板船或双层甲板船,漂浮在群山环绕的湖上。这张图像表明 AI 内部出现了争执,「能漂浮在湖泊上的是船」和文本明确描述的「公共汽车」之间有着矛盾。

「我们可以控制我们描述的东西,看看机器如何作出反应。」 何晓东解释说,「我们可以干涉和测试机器到底学到了什么东西。这台机器已经学到了一些作为背景知识的常识,但它仍然可以按照你所要求的样子来生成图像,不过生成的图像有时候看起来很滑稽。」

实际应用方面

这项文本到图像的生成技术可以运用到实际应用中,可以作为画家和室内设计师的草图助手,或作为语音控制的照片美化工具。如果有更强大的计算能力,何晓东认为这项技术可以根据电影剧本直接生成动画电影画面,为电影制作人减少一些需要人工的成本。

但就目前来看,这项技术还不完善。如果仔细查看生成的图像,几乎总能发现瑕疵,例如蓝鸟喙,而不是黑色的,水果和基因突变的香蕉长在一起。这些缺陷清楚地表明,是电脑而不是人类创造了这些图像。尽管如此, AttnGAN 图像的质量比以前最好的 GAN 图像质量提高了近 3 倍,并且这是通往增强人类自身能力的类人工智能道路上的一个里程碑 。

「为了让人工智能和人类可以生活在同一个世界,他们之间必须找到一种互相交流的方式。」何晓东说,「语言和视觉是人类与机器交流的两个最重要的途径。」

论文地址: https://arxiv.org/abs/1711.10485

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-01-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏京东技术

JDAI-Face | 新型人脸属性识别系统技术解析

人可以轻易理解所看到的视觉信息,但将同样的能力赋予计算机,并让其代替人类来进行类脑思考,是人工智能学术界、产业界争相研究的科学课题。人脸作为最重要的生物特征,蕴...

48230
来自专栏机器之心

语音合成到了跳变点?深度神经网络变革TTS最新研究汇总

机器之心原创 作者:李亚洲 近年来,随着深度神经网络的应用,计算机理解自然语音能力有了彻底革新,例如深度神经网络在语音识别、机器翻译中的应用。但是,使用计算...

37850
来自专栏机器之心

从Pix2Code到CycleGAN:2017年深度学习重大研究进展全解读

444120
来自专栏IT派

机器学习入门知识体系

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 随着2016年Alpha Go在围棋击败李世石,2017年初卡内基梅隆大学人工智能系统Lib...

50560
来自专栏机器学习算法与Python学习

CVPR 2018,盘点我心中的创意 TOP10

2018 计算机视觉与模式识别会议 (CVPR) 上周在美国盐湖城举行,它是世界计算机视觉领域的顶级会议。今年,CVPR 收到了主要会议论文投稿 3300 份,...

11800
来自专栏AI科技大本营的专栏

AI 技术讲座精选:数据科学的缺陷

业内人士都知道,数据科学有很多缺陷。 模型是未知的 建立机器学习模型的目的是为了应用,而不是理解。 能解释清楚的也只有那些最简单的模型。线性模型第一眼看起来的...

28350
来自专栏新智元

专访Ian Goodfellow:欲在谷歌打造GAN团队,用假数据训练真模型

【新智元导读】 近日,从Open AI 重回谷歌大脑的 Ian Goodfellow 接受Wired 专访,这篇文章被Google+推荐为关于对抗生成网络历史和...

371100
来自专栏ATYUN订阅号

微软的AI技术可将你描述的内容绘制成图像 小白也能画出蒙娜丽莎

谷歌可能教会了人工智能如何涂鸦,但对计算机来说,绘制更复杂的东西是很困难的。想象一下,让电脑画一只“黑翅膀和短喙的黄鸟”;这听起来有点棘手。不过,微软的研究人员...

38090
来自专栏大数据文摘

人工智能概念诞生60年,哪些大牛堪称“一代宗师”?

26880
来自专栏AI科技评论

动态 | 如何让无人机灵活穿越满是障碍的房间?训练一个循环神经网络试试看

如今,深度学习已经在语音识别、计算机视觉等多个应用领域取得了重大突破。然而,要说到它在机器人领域的发展,那就要另当别论了——深度学习在机器人领域,不仅发展速度慢...

35490

扫码关注云+社区

领取腾讯云代金券