首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软的新AI软件可根据文字生成图片了!

这两张图片上的鸟怎么看都真实得不得了。一只鸟肚子上有黄色的茸毛,煞是可爱。另外一只尾巴是深绿色的,有长长的喙,估计是个啄虫子的鸟。

然而,现在告诉你,这几张图片都是假的!完全是虚构的!

What!

它们出自微软最新人工智能软件AttnGAN的想象。

你只需要向系统输入一句话,比如“一只嘴非常短的红白色鸟”,随后,AttnGAN将会根据你的描述生成及其逼真的虚构照片。

Emmm,以前是小学生看图说话,现在人工智能都能听话画图了,社会社会。

“四年前,甚至没人相信人工智能可以做到这一点,”该项目的主管研究员何晓东(Xiaodong He)说。过去四年来,何晓东一直在研究图像与文字之间的关系,训练人工智能去执行各种各样的任务。

一开始,他创建了名为CaptionBot的人工智能,该系统可以用文字对照片进行描述,也就是让人工智能具备看图说话的能力。现在,这项人工智能“看图说话”的研究已经成为帮助视觉障碍者使用微软产品的辅助功能。

紧接着,何晓东进一步推动研究,创建出另一个人工智能系统,可以对用户提出的关于图片的具体问题进行回答。

现在,AttnGAN是一个“集大成者”的存在,换句话说,微软的人工智能系统可以从文字中创建图像,同时为图像加上标题。

“AttnGAN”是怎么来的呢?

它的名字是源自于这个系统的创建方式。微软研究人员让两个人工智能系统互相竞争(“GAN”由此而来,即“生成式对抗网络”的缩写),两个系统都被编入语言和大量的图片集,一个系统尝试着创建图像,而另外一个系统则尝试着对图像进行批评,批评会发生在从模糊草图到逼真终稿过程中的三个阶段。

就是两个系统之间的对抗,使得AttnGAN生成现在我们所看到的高度真实图片。

虽然生成的图片分辨率相对较低,但是都十分逼真,细节更是非常具体,人工智能会根据口头叙述调整每张图像的微小细节,这体现了AttnGAN中的“attention”(注意力),也意味着通过“AttnGAN”生成的鸟儿可以有非常具体的特征,比如蓝色的嘴、黄色的嘴,长嘴或者短嘴。

从分辨率到即兴创作再到细节的调整,这个过程比谷歌的画图人工智能系统负责多了(谷歌躺枪),别说谷歌了,就连Adobe这样专业的图像创造、处理工具,也必须以真实图片为基础,难以实现凭空创作。

要说AttnGAN有什么用途,那绝对是观鸟者的一个梦想工具了,它可以以逼真的方式生成各种各样的鸟儿,也就是说,仅依靠观鸟者的记忆和口头叙述,AttnGAN分分钟就做好一个《鸟类图鉴》。

但是,人工智能系统终究是要依靠数据库里面大量的素材进行学习才能做出预判中的行为,一旦脱离了其原有系统的素材,人工智能就靠不住了。

“若物品的属性或关系比较复杂,系统就会感到困惑,画出来的图与文字就不大对得上,”何晓东说。

比如上面说到的“画鸟”,鸟的形状都是比较容易想象的,或者说,都是比较固定的,再加上数据库中的大多数照片都拍摄于鸟儿栖息在树上的时候,所以,当我们让AttnGAN画一只鸟的时候,它可以很快的根据语境进行创作。

但是,当我们给出一些物品是脱离了语境并与其他物品混合的时候,AttnGAN就难以进行创作了。

除此之外,AttnGAN对于复杂无题的把握也是不准确的。

再举个例子:研究人员让系统画出“一个女孩吃一大片披萨的图片”。女孩的形状非常逼真,但除此之外,其他方面都不怎么样。整体图像非常奇怪,看上去就像立体派画作。

“要准确地画出复杂物体,系统还需要学习很多常识,”何晓东总结道。

确实如此,在这两个失败的栗子中,AttnGAN似乎能弄清楚要求,问题在于缺乏对世界与物体之间关系的基本理解。这个逻辑必须成为AttnGAN想象力的基础才能有自由创作的可能性存在。

但上面提到的缺陷并不能让何晓东停下脚步。他坚决认为,在未来几年内,这些人工智能模型将得到极大的改善,而且,随着计算机变得更快、内存更大,研究人员将使人工智能生成更大、更精细的图像。

我们看到了他在过去五年来取得的进展,不得不同意他的观点。

何晓东认为,AttnGAN类型的技术将完全改变创造性工具。

他设想必应(Bing)的图像搜索可以根据需要来生成照片——比如,在图像搜索中输入“停车标志飞过天空”,而iStockPhoto里面又没有这样一张图片,系统将自动为你创作这样的一张图片。

更进一步思考,何晓东眼前就出现了为艺术家生成图片、为设计师生成房间布局场景的系统,而且,只需稍微做些调整,图片就十分逼真而且可信。他甚至认为,在可预见的未来里,这类人工智能系统可以将图稿变成动画。

但目前,这项研究意在模糊人类思考与机器思考的界线。

“这非常有趣,这直指一个基本的人工智能问题,那就是‘什么是智能?是什么将我们与动物区分开来?’”何晓东沉思道,“我们知道如何表达自己,如何阅读图片。对我来说,复制这个过程就是再造人类基本智力的一个途径。”

文 | Mark Wilson

图片 | fastcompany.cn

编辑 | 李习双

实习生 | Joe 谢佳榆

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180208A0I0QZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券