AI界梵高诞生！微软研发新技术，可将文本转为图像

文章来源：企鹅号 - 人工智能观察

本文由人工智能观察编译

译者：Sandy

微软一直以来都在图像与文本的转化领域，不断努力着。不久以前，他们已经开发出了一个将图像转化为文本的AI应用程序，比如，苹果iOS设备上的Seeing AI程序可以将摄像头捕捉到的图像转换为文本，朗读给视障用户。

之后微软的开发人员进行了反向研究，而就在昨天，他们推出了一个全新的AI系统，简称“绘图机器人”，可以将文字转化为图像。

在此之前，微软已经着手开始了CaptionBot的研究。这是一种机器学习技术，可以为照片添加文字说明。然后，通过重新审视对基于神经网络的系统的研究，最新的系统可以像人一样处理视觉信息，并回答有关照片内容的问题。

为了充实新AI应用程序的“绘图”部分，微软必须设计一种技术，从本质上“想象”或填写标题中可能丢失的细节。

这就是所谓的“生成敌对网络”（GAN）的技术。

微软在声明中表示：“该网络由两个机器学习模型组成，一个通过文本描述生成图像，另一个是一种鉴别器，使用文本描述来判断生成图像的真实性。前者试图鉴别器获取伪造的图像，而鉴别器永远不希望被愚弄。所以，两者的结合会创造出更高质量的图像。

微软使用由图像和字幕对组成的数据集对系统进行了训练。它可以像一个有艺术造诣的人一样画图：先创建一个粗略的轮廓，然后反复引用文本描述进行细节填充。

为了将详尽的描述变成更细致的图像，研究人员创造了一个关于注意力的GAN，即AttnGAN。它可以模仿人类的注意力，将一个冗长的句子分解成单个的单词，而这些单词可以在屏幕上被准确地表示为视觉元素。

微软称，最终的结果是，现在的图像质量比之前的技术提高了近三倍。正如在其声明中所展示的那样，它创造了一幅美丽的图像，一只站在树枝上的鸟。

同时，微软的绘图机器人并不局限于以真实的语言为基础的视觉效果。据该公司介绍，这种技术也可以用来产生幻想场景，比如一辆漂浮的双层巴士。它也可以填补空白。

回到鸟的例子，绘图机器人通常会在树枝上绘制鸟类，即使输入的文本中没有提到树枝。这是因为许多用于训练AI的照片都显示出了一只坐在树上的鸟。

尽管公司的文本图像技术被用于绘画杰作可能还需要一段时间，但微软已经预见到了一些实际的应用。就像Cortana和其他虚拟助理帮助忙碌的专业人员计划一天的时间表一样，绘图机器人可能有一天会成为画家或室内设计师的素描助手。

相关快讯