微软教会人工智能看图写故事

微软研究人员提出了通过使用人工智能让计算机讲述多张照片中发生的故事的新颖方法。2016年4月,微软发布了一份描述这项技术的学术论文,据论文表示,这项技术在将来可能能够发展出对视障人士尤为有用的服务。微软还发布了照片、图片说明以及研究中制作出的“故事”。这项新功能意义深远,因为它的作用绝不仅仅是通过识别图片或者甚至视频中的物体来生成图片说明。

微软研究员Margaret Mitchell表示:“目前要评估它的价值还很困难,但我们希望从一个维度中获取最重要的信息。通过看图讲故事,可以获得很多关于背景以及相关事件的信息。”

为促进这一领域的最新发展水平,微软依靠人工、并按特定顺序为每张图片编写说明。然后,工程师利用这些信息教会机器如何组织出整个故事,说明图片的顺序。这个方法涉及深度学习,也就是人工智能的一种,微软之前曾将这种人工智能用于语音识别和机器翻译等任务。Facebook、谷歌和其他公司也在这方面积极开展研究。

在这个案例中,谷歌使用递归神经网络进行图片和词汇的训练。Mitchell和她的同事从机器翻译领域借鉴了一种名为序列到序列学习(sequence-to-sequence learning)的方法。论文课题负责人Mitchell表示:“我们通过一个脑回网络馈送每张图片,提供序列的各个部分,然后,我们查看这个序列,为图片的序列创建整体编码,然后再根据总体编码解码出这个故事。”她和她的合作者——部分来自Facebook人工智能研究(FAIR)实验室——尝试通过设定一定的规则来改善系统最初产生的内容。例如在一个故事中,相同的内容词汇不应该出现两次。

这样一来,最后生成的语言不再刻板乏味,而是更简练、更吸引人。而随着时间变化,这种语言可能产生巨大潜力。无法看到图片的人也可以了解成套的图片所传递的信息。

近期,业内兴起了一阵研究如何为盲人识别图片和视频中的物体和人物的热潮,而微软的这项工作正是这种热潮的良好延续。事实上,这也是Mitchell最近与微软盲人软件开发人员Saqib Shaikh共同探索的领域。Mitchell表示,如果视力健全的人群要学习第二语言,也可能从视觉故事讲述中获得极大帮助,这种技术还可激发儿童的思维,让他们对于自己眼中的世界产生更多想象。

人们越来越多地用手机摄像头拍摄成套图片,比如iPhones可以拍摄动画GIF一样的动态图片,也可以拍摄视频。所以,机器理解这些内容就愈发重要。仅仅分别每张照片中的内容已经不够了。Mitchell认为研究将朝着这个方向发展——虽然他们离这个目标还很远。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能的秘密

如何才能成为一名自然语言处理工程师?

自然语言处理和大部分的机器学习或者人工智能领域的技术一样,是一个涉及到多个技能、技术和领域的综合体。

3975
来自专栏人工智能头条

如何成为一名自然语言处理工程师

1533
来自专栏PPV课数据科学社区

【观点】以“上大学分析”为例体验什么是数据挖掘

某社会机构,收集了大量的学生考大学的数据。该机构希望找出一些规律,以推动更多的学生考大学。该机构委托你来做这个分析工作,给出具体的可以推动更多学生考大学的建议。...

2594
来自专栏AI科技评论

业界 | 黄仁勋亲自撰文怼上 TPU:P40速度比你快 2 倍,带宽是你的 10 倍

AI科技评论按:前不久谷歌发布了关于TPU细节的论文,称“TPU 处理速度比当前 GPU 和 CPU 要快 15 到 30 倍”。当时就有人对此种“比较”表示质...

3456
来自专栏机器之心

让人工智能发明自己的语言:OpenAI语言理解研究新方向

选自OpenAI 作者:Igor Mordatch 等 机器之心编译 参与:李泽南、蒋思源、微胖、黄小天 在本文中,OpenAI 展示了自己的新研究,让人工智能...

3207
来自专栏AI研习社

F8 2017 | 技术负责人为你解析 Facebook 神经机器翻译

编者按:该讲座主题为 Facebook 机器翻译的两代架构以及技术挑战。 在昨日的 F8 会场,该讲座吸引了众多开发者到场,主讲者是 Facebook 语言翻译...

33711
来自专栏CDA数据分析师

以“上大学分析”为例体验什么是数据挖掘

谈到BI,就会谈到数据挖掘(Data mining)。数据挖掘是指用某些方法和工具,对数据进行分析,发现隐藏规律并利的一种方法。下面我们将通过具体的例子来学习什...

1957
来自专栏新智元

【深度】AI 入侵翻译,神经机器翻译进化让巴别塔7年内成真

【新智元导读】 随着AlphaGo战胜柯洁,AI 所激起的惊慌不仅在围棋界蔓延,而且扩展到了几乎每一个领域,翻译受到的冲击尤为严重。深度学习的出现极大地变革了机...

57018
来自专栏数据科学与人工智能

【统计学习】为什么同一问题统计专家、机器学习专家解决方法差别那么大?

乍一看,机器学习和统计似乎是非常相似的,大家几乎不强调这两个学科之间的差异。机器学习和统计有着相同的目标 ——它们都关注数据建模,但他们的使用方法却因为它们文化...

2476
来自专栏数据科学与人工智能

【机器学习】什么是机器学习:一次权威定义之旅

在这篇文章中,我想要解决一个很简单的问题:机器学习是什么? 你可能对机器学习感兴趣或者稍稍了解。如果有一天你和朋友或同事聊起机器学习,那么一些人可能会问你“机...

2095

扫码关注云+社区