微软人工智能要逆天,动动嘴就能生成图片

学霸们认真起来,真的比艺术家还骚。今天要和大家说的就是微软一群学霸搞出来的最新人工智能研究。

在你的概念里什么是人工智能?虽然我们每天都说现在是 AI 时代,但人工智能的发展真的是道阻且长。人工智能可以给我们生活所带来的改变,绝不仅只是每天早上给你预报一下天气。

看到上面这张图,你可能会觉得这个图片像素一般,丢失了很多细节。

但你能信这是人工智能生成的吗。。。而且是仅需要的通过文字的描述,比如“这只鸟是红色和白色的,嘴巴很短”人工智能就可以帮你绘制出这个图像。

这是微软的一个人工智能项目—— AttnGAN ,用户只需要在系统中输入一个句子,系统就能够根据你的描述创作这张图片。AttnGAN 简直是我等“绘画能力欠费者”的福音。

而它是由一群在微软总部的华人研发团队开发,带领整个项目组何晓东(音)说:4 年前,没有人相信这件事情可以成功。想要实现通过语言描述让人工智能绘制影像,这需要在文字和图像方面深厚的积累。

5 年来,晓东的团队一直在探索计算机视觉和自然语言处理技术,并且研究这两项技术之间如何能够交叉应用。

最开始,晓东和同事们先把精力放在,让人工智能给照片自动搭配文字开始,有点像给图片加图注。为此,团队开发了一个叫 CaptionBot 的人工智能。

这件事情虽然不容易,但人工智能通过大量的学习之后,可以分析图片中的内容,然后配合相应的文字,算是有迹可循。

随后他们更进一步,在 2015 年开始训练人工智能学习人类的方式观看图像。通过计算机视觉,让人工智能在辨别图像的时候,可以满足人们提出的问题。

比如上面针对上面这张图,你可以的问:“自行车篮里面的是什么东西?”人工智能在通过推理之后,可以告诉你,自行车篮里坐着的是狗。

这样的成果非常有用,在实际生活中,如果配合相关的产品,就能够告诉为盲人提供更加全面的环境识别。通过语音的方式告诉盲人,周围的环境是什么样的。

先上一个视频,炫一下这项成果。

经过多年的积累,团队成员决定搞一个大新闻。

让人工智能根据文字描述,绘制图像。虽然看上去就像是前面那些研究的相反方向,但实际上要实现这样的目标并不容易。

(水面上有一辆双层大巴)

比如你希望人工智能绘制一只“黄色翅膀,在树上的鸟”虽然人工智能可以“读懂”文字,也可以从庞大的数据库中找到相应位置的图片。

但在描述中,有一部分的信息是缺失的:“什么样的鸟能站在树上,鸟和树之外的环境是什么样?树是什么颜色?”

这部分就涉及到我们经常说的“常识”,我们平时通过不断学习和在生活的中总结,知道缺失的这部分信息是什么,但是人工智能并不知道。

(吃披萨的女孩)

于是项目组在研发的过程中,让人工智能通过机器学习开始的学习这些常识,从而可以理解那些并不在文字描述中的细节内容。但现在团队对 AttnGAN 仍在不断的优化中,毕竟有时候 AttnGAN 还是搞不清楚的人脸上这些器官的位置。

目前 AttnGAN 仍旧需要大量的学习“常识”,才能够在面对简单描述和复杂图案的情况下,交出让人满意的画面。

不过,AttnGAN 继续优化下去,或许就会成为设计师们的最有利助手。当面对客户某些如“把 Logo 放大的同时缩小一点”、“帮我加上五彩斑斓的黑试试看”的需求时,就直接让人工智能帮你解决这些的问题。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180130G1FFUQ00?refer=cp_1026

相关快讯

扫码关注云+社区