微软最新人工智能技术 AttnGAN:给它一句话,还你一幅图

首先,小编想要先问大家一个问题:下面图片中的小鸟叫什么?

我想基本上没有人能答对这个问题,因为在现实生活中,这只鸟并不存在。它是微软 AI 工具AttnGAN生成的一张假照片。

看到这,你是不是觉得它有点像我们之前介绍的能够把模糊的图片变清晰的 EnhanceNet 算法?事实上,AttnGAN 和EnhanceNet 有很大的区别。

EnhanceNet 算法效果图

AttnGAN 是微软研究实验室最近开发的一项人工智能技术,它可以让 AI根据类似于字幕的文本描述生成相应的图片。事实上,根据文本生成图像的技术并不新鲜,但是和此前的文本生成图像技术相比,AttnGAN 生成的图像质量提高了 3 倍。除此之外,它还拥有其他技术所没有的“想象力”。

以之前的那只小鸟为例,如果我们要画出一只小鸟,我们首先会在脑海中想象小鸟的样子:一只腹部红白相间、黑色翅膀、短喙的小鸟,然后在纸上勾勒出小鸟的轮廓,再用不同颜色的笔画出小鸟的各个部位,最后再画出黑色短小的鸟喙。

而 AttnGAN 也可以完成这样需要丰富想象力的工作,微软研究室的首席研究员认为这项技术主要的挑战还在于让 AttnGAN “想象”出文字描述中没有包含的细节。这就意味着,研究员们需要让 AttnGAN通过算法“想象”出图像中缺失的部分。

在生成小鸟图像的文本中,研究员并没有提到它会站在树枝上,其最终的结果是AttnGAN 在大量数据的基础上所生成的图像。这一切都是通过一个生成式对抗网络(Generative Adversarial Network, GAN)完成的。它由两个“敌对”的机器模型组成,一个负责从文本描述生成图像,另一个则负责判断生成图片的真实性。

如果生成的图片不合格,它就会重新生成图像。通过这个过程的不断循环,这个对抗网络让最终生成图片的可信度不断提高,从而产生让用户满意的图片。

图片 | fastcompany

转载请在后台留言,谢谢

-END-

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180201B1DACT00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券