微软教会人工智能看图写故事

微软研究人员提出了通过使用人工智能让计算机讲述多张照片中发生的故事的新颖方法。2016年4月,微软发布了一份描述这项技术的学术论文,据论文表示,这项技术在将来可能能够发展出对视障人士尤为有用的服务。微软还发布了照片、图片说明以及研究中制作出的“故事”。这项新功能意义深远,因为它的作用绝不仅仅是通过识别图片或者甚至视频中的物体来生成图片说明。

微软研究员Margaret Mitchell表示:“目前要评估它的价值还很困难,但我们希望从一个维度中获取最重要的信息。通过看图讲故事,可以获得很多关于背景以及相关事件的信息。”

为促进这一领域的最新发展水平,微软依靠人工、并按特定顺序为每张图片编写说明。然后,工程师利用这些信息教会机器如何组织出整个故事,说明图片的顺序。这个方法涉及深度学习,也就是人工智能的一种,微软之前曾将这种人工智能用于语音识别和机器翻译等任务。Facebook、谷歌和其他公司也在这方面积极开展研究。

在这个案例中,谷歌使用递归神经网络进行图片和词汇的训练。Mitchell和她的同事从机器翻译领域借鉴了一种名为序列到序列学习(sequence-to-sequence learning)的方法。论文课题负责人Mitchell表示:“我们通过一个脑回网络馈送每张图片,提供序列的各个部分,然后,我们查看这个序列,为图片的序列创建整体编码,然后再根据总体编码解码出这个故事。”她和她的合作者——部分来自Facebook人工智能研究(FAIR)实验室——尝试通过设定一定的规则来改善系统最初产生的内容。例如在一个故事中,相同的内容词汇不应该出现两次。

这样一来,最后生成的语言不再刻板乏味,而是更简练、更吸引人。而随着时间变化,这种语言可能产生巨大潜力。无法看到图片的人也可以了解成套的图片所传递的信息。

近期,业内兴起了一阵研究如何为盲人识别图片和视频中的物体和人物的热潮,而微软的这项工作正是这种热潮的良好延续。事实上,这也是Mitchell最近与微软盲人软件开发人员Saqib Shaikh共同探索的领域。Mitchell表示,如果视力健全的人群要学习第二语言,也可能从视觉故事讲述中获得极大帮助,这种技术还可激发儿童的思维,让他们对于自己眼中的世界产生更多想象。

人们越来越多地用手机摄像头拍摄成套图片,比如iPhones可以拍摄动画GIF一样的动态图片,也可以拍摄视频。所以,机器理解这些内容就愈发重要。仅仅分别每张照片中的内容已经不够了。Mitchell认为研究将朝着这个方向发展——虽然他们离这个目标还很远。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏目标检测和深度学习

Facebook 开源了自家的物体检测研究平台 Detectron

【导读】:近日 Facebook 开源了自家的物体检测研究平台 Detectron。Detectron 是 Facebook AI 研究的软件系统,实现了最先进...

3265
来自专栏PPV课数据科学社区

神奇的数据挖掘

谈到BI,就会谈到数据挖掘(Data mining)。数据挖掘是指用某些方法和工具,对数据进行分析,发现隐藏规律并利的一种方法。下面我们将通过具体的例...

3976
来自专栏AI科技评论

业界 | 黄仁勋亲自撰文怼上 TPU:P40速度比你快 2 倍,带宽是你的 10 倍

AI科技评论按:前不久谷歌发布了关于TPU细节的论文,称“TPU 处理速度比当前 GPU 和 CPU 要快 15 到 30 倍”。当时就有人对此种“比较”表示质...

3656
来自专栏人工智能头条

如何成为一名自然语言处理工程师

2043
来自专栏AI研习社

AI 挑战赛 | 基于一分钟渐进情绪行为数据集(OMG-Emotion)的情绪识别挑战赛

大部分的情感系统基于 Paul Ekman 的分类方案,即六种普遍情感:厌恶、恐惧、幸福、惊奇、悲伤和愤怒。虽然 Ekman 在他的研究中表明,这些情绪是通过人...

48812
来自专栏AI研习社

F8 2017 | 技术负责人为你解析 Facebook 神经机器翻译

编者按:该讲座主题为 Facebook 机器翻译的两代架构以及技术挑战。 在昨日的 F8 会场,该讲座吸引了众多开发者到场,主讲者是 Facebook 语言翻译...

35111
来自专栏人工智能的秘密

如何才能成为一名自然语言处理工程师?

自然语言处理和大部分的机器学习或者人工智能领域的技术一样,是一个涉及到多个技能、技术和领域的综合体。

5145
来自专栏数据科学与人工智能

【知识】统计学和数据挖掘的区别

小编邀请您,先思考: 1 统计学是什么?为什么用统计学? 2 数据挖掘是什么?为什么用数据挖掘? ? 1. 简介 统计学和数据挖掘有着共同的目标:发现数据中的结...

3957
来自专栏数据科学与人工智能

【数据科学】数据科学中隐藏的数据智慧

在大数据时代,学术界和业界的大量研究都是关于如何以一种可扩展和高效率的方式来对数据进行储存,交换和计算(通过统计方法和算法)。 这 些研究领域无疑非常重要,然而...

2875
来自专栏新智元

首个光电子神经网络问世,速度快3个数量级,扩展人工智能新疆域

【新智元导读】 光学计算一直被计算机科学界寄予厚望 。光子具有比电子多得多的带宽,因此可以更快地处理更多的数据。但是光学数据处理系统的优点从未超过制造它们的额外...

34210

扫码关注云+社区

领取腾讯云代金券