微软人工智能要逆天，动动嘴就能生成图片

文章来源：企鹅号 - 软一典

学霸们认真起来，真的比艺术家还骚。今天要和大家说的就是微软一群学霸搞出来的最新人工智能研究。

在你的概念里什么是人工智能？虽然我们每天都说现在是 AI 时代，但人工智能的发展真的是道阻且长。人工智能可以给我们生活所带来的改变，绝不仅只是每天早上给你预报一下天气。

看到上面这张图，你可能会觉得这个图片像素一般，丢失了很多细节。

但你能信这是人工智能生成的吗。。。而且是仅需要的通过文字的描述，比如“这只鸟是红色和白色的，嘴巴很短”人工智能就可以帮你绘制出这个图像。

这是微软的一个人工智能项目—— AttnGAN ，用户只需要在系统中输入一个句子，系统就能够根据你的描述创作这张图片。AttnGAN 简直是我等“绘画能力欠费者”的福音。

而它是由一群在微软总部的华人研发团队开发，带领整个项目组何晓东（音）说：4 年前，没有人相信这件事情可以成功。想要实现通过语言描述让人工智能绘制影像，这需要在文字和图像方面深厚的积累。

5 年来，晓东的团队一直在探索计算机视觉和自然语言处理技术，并且研究这两项技术之间如何能够交叉应用。

最开始，晓东和同事们先把精力放在，让人工智能给照片自动搭配文字开始，有点像给图片加图注。为此，团队开发了一个叫 CaptionBot 的人工智能。

这件事情虽然不容易，但人工智能通过大量的学习之后，可以分析图片中的内容，然后配合相应的文字，算是有迹可循。

随后他们更进一步，在 2015 年开始训练人工智能学习人类的方式观看图像。通过计算机视觉，让人工智能在辨别图像的时候，可以满足人们提出的问题。

比如上面针对上面这张图，你可以的问：“自行车篮里面的是什么东西？”人工智能在通过推理之后，可以告诉你，自行车篮里坐着的是狗。

这样的成果非常有用，在实际生活中，如果配合相关的产品，就能够告诉为盲人提供更加全面的环境识别。通过语音的方式告诉盲人，周围的环境是什么样的。

先上一个视频，炫一下这项成果。

经过多年的积累，团队成员决定搞一个大新闻。

让人工智能根据文字描述，绘制图像。虽然看上去就像是前面那些研究的相反方向，但实际上要实现这样的目标并不容易。

（水面上有一辆双层大巴）

比如你希望人工智能绘制一只“黄色翅膀，在树上的鸟”虽然人工智能可以“读懂”文字，也可以从庞大的数据库中找到相应位置的图片。

但在描述中，有一部分的信息是缺失的：“什么样的鸟能站在树上，鸟和树之外的环境是什么样？树是什么颜色？”

这部分就涉及到我们经常说的“常识”，我们平时通过不断学习和在生活的中总结，知道缺失的这部分信息是什么，但是人工智能并不知道。

（吃披萨的女孩）

于是项目组在研发的过程中，让人工智能通过机器学习开始的学习这些常识，从而可以理解那些并不在文字描述中的细节内容。但现在团队对 AttnGAN 仍在不断的优化中，毕竟有时候 AttnGAN 还是搞不清楚的人脸上这些器官的位置。

目前 AttnGAN 仍旧需要大量的学习“常识”，才能够在面对简单描述和复杂图案的情况下，交出让人满意的画面。

不过，AttnGAN 继续优化下去，或许就会成为设计师们的最有利助手。当面对客户某些如“把 Logo 放大的同时缩小一点”、“帮我加上五彩斑斓的黑试试看”的需求时，就直接让人工智能帮你解决这些的问题。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货