首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI界梵高诞生!微软研发新技术,可将文本转为图像

本文由人工智能观察编译

译者:Sandy

微软一直以来都在图像与文本的转化领域,不断努力着。不久以前,他们已经开发出了一个将图像转化为文本的AI应用程序,比如,苹果iOS设备上的Seeing AI程序可以将摄像头捕捉到的图像转换为文本,朗读给视障用户。

之后微软的开发人员进行了反向研究,而就在昨天,他们推出了一个全新的AI系统,简称“绘图机器人”,可以将文字转化为图像。

在此之前,微软已经着手开始了CaptionBot的研究。这是一种机器学习技术,可以为照片添加文字说明。然后,通过重新审视对基于神经网络的系统的研究,最新的系统可以像人一样处理视觉信息,并回答有关照片内容的问题。

为了充实新AI应用程序的“绘图”部分,微软必须设计一种技术,从本质上“想象”或填写标题中可能丢失的细节。

这就是所谓的“生成敌对网络”(GAN)的技术。

微软在声明中表示:“该网络由两个机器学习模型组成,一个通过文本描述生成图像,另一个是一种鉴别器,使用文本描述来判断生成图像的真实性。前者试图鉴别器获取伪造的图像,而鉴别器永远不希望被愚弄。所以,两者的结合会创造出更高质量的图像。

微软使用由图像和字幕对组成的数据集对系统进行了训练。它可以像一个有艺术造诣的人一样画图:先创建一个粗略的轮廓,然后反复引用文本描述进行细节填充。

为了将详尽的描述变成更细致的图像,研究人员创造了一个关于注意力的GAN,即AttnGAN。它可以模仿人类的注意力,将一个冗长的句子分解成单个的单词,而这些单词可以在屏幕上被准确地表示为视觉元素。

微软称,最终的结果是,现在的图像质量比之前的技术提高了近三倍。正如在其声明中所展示的那样,它创造了一幅美丽的图像,一只站在树枝上的鸟。

同时,微软的绘图机器人并不局限于以真实的语言为基础的视觉效果。据该公司介绍,这种技术也可以用来产生幻想场景,比如一辆漂浮的双层巴士。它也可以填补空白。

回到鸟的例子,绘图机器人通常会在树枝上绘制鸟类,即使输入的文本中没有提到树枝。这是因为许多用于训练AI的照片都显示出了一只坐在树上的鸟。

尽管公司的文本图像技术被用于绘画杰作可能还需要一段时间,但微软已经预见到了一些实际的应用。就像Cortana和其他虚拟助理帮助忙碌的专业人员计划一天的时间表一样,绘图机器人可能有一天会成为画家或室内设计师的素描助手。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180119A0WMSK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券