微软教会人工智能看图写故事

人工智能快报

发布于 2018-03-07 15:57:08

9630

发布于 2018-03-07 15:57:08

文章被收录于专栏：人工智能快报

微软研究人员提出了通过使用人工智能让计算机讲述多张照片中发生的故事的新颖方法。2016年4月，微软发布了一份描述这项技术的学术论文，据论文表示，这项技术在将来可能能够发展出对视障人士尤为有用的服务。微软还发布了照片、图片说明以及研究中制作出的“故事”。这项新功能意义深远，因为它的作用绝不仅仅是通过识别图片或者甚至视频中的物体来生成图片说明。

微软研究员Margaret Mitchell表示：“目前要评估它的价值还很困难，但我们希望从一个维度中获取最重要的信息。通过看图讲故事，可以获得很多关于背景以及相关事件的信息。”

为促进这一领域的最新发展水平，微软依靠人工、并按特定顺序为每张图片编写说明。然后，工程师利用这些信息教会机器如何组织出整个故事，说明图片的顺序。这个方法涉及深度学习，也就是人工智能的一种，微软之前曾将这种人工智能用于语音识别和机器翻译等任务。Facebook、谷歌和其他公司也在这方面积极开展研究。

在这个案例中，谷歌使用递归神经网络进行图片和词汇的训练。Mitchell和她的同事从机器翻译领域借鉴了一种名为序列到序列学习（sequence-to-sequence learning）的方法。论文课题负责人Mitchell表示：“我们通过一个脑回网络馈送每张图片，提供序列的各个部分，然后，我们查看这个序列，为图片的序列创建整体编码，然后再根据总体编码解码出这个故事。”她和她的合作者——部分来自Facebook人工智能研究（FAIR）实验室——尝试通过设定一定的规则来改善系统最初产生的内容。例如在一个故事中，相同的内容词汇不应该出现两次。

这样一来，最后生成的语言不再刻板乏味，而是更简练、更吸引人。而随着时间变化，这种语言可能产生巨大潜力。无法看到图片的人也可以了解成套的图片所传递的信息。

近期，业内兴起了一阵研究如何为盲人识别图片和视频中的物体和人物的热潮，而微软的这项工作正是这种热潮的良好延续。事实上，这也是Mitchell最近与微软盲人软件开发人员Saqib Shaikh共同探索的领域。Mitchell表示，如果视力健全的人群要学习第二语言，也可能从视觉故事讲述中获得极大帮助，这种技术还可激发儿童的思维，让他们对于自己眼中的世界产生更多想象。

人们越来越多地用手机摄像头拍摄成套图片，比如iPhones可以拍摄动画GIF一样的动态图片，也可以拍摄视频。所以，机器理解这些内容就愈发重要。仅仅分别每张照片中的内容已经不够了。Mitchell认为研究将朝着这个方向发展——虽然他们离这个目标还很远。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-05-25，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

本文分享自人工智能快报微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

登录后参与评论

0 条评论

热度

微软教会人工智能看图写故事

微软教会人工智能看图写故事

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐