微软教会人工智能看图写故事

微软研究人员提出了通过使用人工智能让计算机讲述多张照片中发生的故事的新颖方法。2016年4月,微软发布了一份描述这项技术的学术论文,据论文表示,这项技术在将来可能能够发展出对视障人士尤为有用的服务。微软还发布了照片、图片说明以及研究中制作出的“故事”。这项新功能意义深远,因为它的作用绝不仅仅是通过识别图片或者甚至视频中的物体来生成图片说明。

微软研究员Margaret Mitchell表示:“目前要评估它的价值还很困难,但我们希望从一个维度中获取最重要的信息。通过看图讲故事,可以获得很多关于背景以及相关事件的信息。”

为促进这一领域的最新发展水平,微软依靠人工、并按特定顺序为每张图片编写说明。然后,工程师利用这些信息教会机器如何组织出整个故事,说明图片的顺序。这个方法涉及深度学习,也就是人工智能的一种,微软之前曾将这种人工智能用于语音识别和机器翻译等任务。Facebook、谷歌和其他公司也在这方面积极开展研究。

在这个案例中,谷歌使用递归神经网络进行图片和词汇的训练。Mitchell和她的同事从机器翻译领域借鉴了一种名为序列到序列学习(sequence-to-sequence learning)的方法。论文课题负责人Mitchell表示:“我们通过一个脑回网络馈送每张图片,提供序列的各个部分,然后,我们查看这个序列,为图片的序列创建整体编码,然后再根据总体编码解码出这个故事。”她和她的合作者——部分来自Facebook人工智能研究(FAIR)实验室——尝试通过设定一定的规则来改善系统最初产生的内容。例如在一个故事中,相同的内容词汇不应该出现两次。

这样一来,最后生成的语言不再刻板乏味,而是更简练、更吸引人。而随着时间变化,这种语言可能产生巨大潜力。无法看到图片的人也可以了解成套的图片所传递的信息。

近期,业内兴起了一阵研究如何为盲人识别图片和视频中的物体和人物的热潮,而微软的这项工作正是这种热潮的良好延续。事实上,这也是Mitchell最近与微软盲人软件开发人员Saqib Shaikh共同探索的领域。Mitchell表示,如果视力健全的人群要学习第二语言,也可能从视觉故事讲述中获得极大帮助,这种技术还可激发儿童的思维,让他们对于自己眼中的世界产生更多想象。

人们越来越多地用手机摄像头拍摄成套图片,比如iPhones可以拍摄动画GIF一样的动态图片,也可以拍摄视频。所以,机器理解这些内容就愈发重要。仅仅分别每张照片中的内容已经不够了。Mitchell认为研究将朝着这个方向发展——虽然他们离这个目标还很远。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能的秘密

如何才能成为一名自然语言处理工程师?

自然语言处理和大部分的机器学习或者人工智能领域的技术一样,是一个涉及到多个技能、技术和领域的综合体。

4455
来自专栏CDA数据分析师

以“上大学分析”为例体验什么是数据挖掘

谈到BI,就会谈到数据挖掘(Data mining)。数据挖掘是指用某些方法和工具,对数据进行分析,发现隐藏规律并利的一种方法。下面我们将通过具体的例子来学习什...

2027
来自专栏新智元

【探索AI自开发】谷歌、微软用AI开发AI,特定任务超越人类AI专家

【新智元导读】为了应对AI人才不足,以谷歌为首的企业正在想方设法,开发能够取代AI研究员的AI系统,让创建AI软件变得容易。目前,这样的AI系统正在帮助AI研究...

3209
来自专栏新智元

首个光电子神经网络问世,速度快3个数量级,扩展人工智能新疆域

【新智元导读】 光学计算一直被计算机科学界寄予厚望 。光子具有比电子多得多的带宽,因此可以更快地处理更多的数据。但是光学数据处理系统的优点从未超过制造它们的额外...

33510
来自专栏PPV课数据科学社区

神奇的数据挖掘

谈到BI,就会谈到数据挖掘(Data mining)。数据挖掘是指用某些方法和工具,对数据进行分析,发现隐藏规律并利的一种方法。下面我们将通过具体的例...

3836
来自专栏数据科学与人工智能

【机器学习】什么是机器学习:一次权威定义之旅

在这篇文章中,我想要解决一个很简单的问题:机器学习是什么? 你可能对机器学习感兴趣或者稍稍了解。如果有一天你和朋友或同事聊起机器学习,那么一些人可能会问你“机...

2185
来自专栏新智元

【深度】AI 入侵翻译,神经机器翻译进化让巴别塔7年内成真

【新智元导读】 随着AlphaGo战胜柯洁,AI 所激起的惊慌不仅在围棋界蔓延,而且扩展到了几乎每一个领域,翻译受到的冲击尤为严重。深度学习的出现极大地变革了机...

57718
来自专栏新智元

研究提出能够自我解释的 AI 算法,辅助理解机器决策过程

【新智元导读】加利福尼亚大学伯克利分校和马克斯普朗克信息学研究所的研究提出了一种能够自我解释的算法,有助于让人类理解机器学习的决策过程。这种被称为“指向和对齐”...

3559
来自专栏AI科技评论

业界 | 黄仁勋亲自撰文怼上 TPU:P40速度比你快 2 倍,带宽是你的 10 倍

AI科技评论按:前不久谷歌发布了关于TPU细节的论文,称“TPU 处理速度比当前 GPU 和 CPU 要快 15 到 30 倍”。当时就有人对此种“比较”表示质...

3546
来自专栏PPV课数据科学社区

【观点】以“上大学分析”为例体验什么是数据挖掘

某社会机构,收集了大量的学生考大学的数据。该机构希望找出一些规律,以推动更多的学生考大学。该机构委托你来做这个分析工作,给出具体的可以推动更多学生考大学的建议。...

2634

扫码关注云+社区