微软教会人工智能看图写故事

微软研究人员提出了通过使用人工智能让计算机讲述多张照片中发生的故事的新颖方法。2016年4月,微软发布了一份描述这项技术的学术论文,据论文表示,这项技术在将来可能能够发展出对视障人士尤为有用的服务。微软还发布了照片、图片说明以及研究中制作出的“故事”。这项新功能意义深远,因为它的作用绝不仅仅是通过识别图片或者甚至视频中的物体来生成图片说明。

微软研究员Margaret Mitchell表示:“目前要评估它的价值还很困难,但我们希望从一个维度中获取最重要的信息。通过看图讲故事,可以获得很多关于背景以及相关事件的信息。”

为促进这一领域的最新发展水平,微软依靠人工、并按特定顺序为每张图片编写说明。然后,工程师利用这些信息教会机器如何组织出整个故事,说明图片的顺序。这个方法涉及深度学习,也就是人工智能的一种,微软之前曾将这种人工智能用于语音识别和机器翻译等任务。Facebook、谷歌和其他公司也在这方面积极开展研究。

在这个案例中,谷歌使用递归神经网络进行图片和词汇的训练。Mitchell和她的同事从机器翻译领域借鉴了一种名为序列到序列学习(sequence-to-sequence learning)的方法。论文课题负责人Mitchell表示:“我们通过一个脑回网络馈送每张图片,提供序列的各个部分,然后,我们查看这个序列,为图片的序列创建整体编码,然后再根据总体编码解码出这个故事。”她和她的合作者——部分来自Facebook人工智能研究(FAIR)实验室——尝试通过设定一定的规则来改善系统最初产生的内容。例如在一个故事中,相同的内容词汇不应该出现两次。

这样一来,最后生成的语言不再刻板乏味,而是更简练、更吸引人。而随着时间变化,这种语言可能产生巨大潜力。无法看到图片的人也可以了解成套的图片所传递的信息。

近期,业内兴起了一阵研究如何为盲人识别图片和视频中的物体和人物的热潮,而微软的这项工作正是这种热潮的良好延续。事实上,这也是Mitchell最近与微软盲人软件开发人员Saqib Shaikh共同探索的领域。Mitchell表示,如果视力健全的人群要学习第二语言,也可能从视觉故事讲述中获得极大帮助,这种技术还可激发儿童的思维,让他们对于自己眼中的世界产生更多想象。

人们越来越多地用手机摄像头拍摄成套图片,比如iPhones可以拍摄动画GIF一样的动态图片,也可以拍摄视频。所以,机器理解这些内容就愈发重要。仅仅分别每张照片中的内容已经不够了。Mitchell认为研究将朝着这个方向发展——虽然他们离这个目标还很远。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

演讲 | Yann LeCun 现身上海交大,对话中国人工智能科技新锐

机器之心报道 参与:高静宜 7 月初,Facebook 人工智能研究院院长、纽约大学终身教授 Yann LeCun 受邀现身上海交通大学闵行校区,围绕 Deep...

2714
来自专栏新智元

自学习芯片、实时3D表情捕捉渲染,百倍DNN模型无损压缩 | 英特尔中国研究院媒体开放日

作者:闻菲 【新智元导读】英特尔中国研究院媒体开放日,英特尔中国研究院院长宋继强率领团队,共同分享了英特尔中国研究院的整体定位、研究方向和创新机制,以及英特尔在...

3226
来自专栏机器之心

业界 | 神经翻译系统水平远超谷歌、微软,德国创业公司发布翻译器DeepL

机器之心报道 参与:路雪、李泽南 近日,一家名为 DeepL 的创业公司发布了自己的神经翻译工具,引起了业内关注。据称在盲测与 BELU 分数测试中,这款全新翻...

34211
来自专栏AI科技评论

大牛| LeCun带我们瞻望计算机移情能力

编者按:一年前,Facebook发布了照片分享应用Moments,于前不久关闭了iOS版Facebook照片同步功能,力推Moments应用,该应用运用了人脸识...

3046
来自专栏机器之心

观点 | 机器学习确实还没商品化,也不必需博士学位

选自fast.ai 作者:Rachel Thomas 机器之心编译 参与:晏奇、微胖、吴攀 上周,我收到了两个前提截然相反的问题:其中一个是兴奋地认为机器学习...

2625
来自专栏新智元

【重磅】谷歌发布 Zero-Shot 神经机器翻译系统:AI 巴别塔有望成真(附论文)

【新智元导读】谷歌今日更新博客,介绍了谷歌神经机器翻译系统重大更新,实现了用单一模型对多语种通用表征。这种新的模型体积不仅与多语言翻译模型一样,参数相同,而且速...

3957
来自专栏人工智能LeadAI

三大技术基础推动人工智能走向实用

人工智能从幕后走向实用离不开人工智能技术取得的突破和发展。在互联网时代背景下,大数据、新型高性能计算架构以及深度学习帮助人工智能技术实现了从量变到质变的转变。其...

2769
来自专栏机器之心

Yoshua Bengio TED演讲谈人工智能的崛起:无监督学习是深度学习突破的关键

选自TEDx 机器之心编译 参与:李亚洲、吴攀 在 2016 年 9 月 24 日举办的 TEDxMontreal 2016 上,深度学习领域的著名学者 Yos...

2795
来自专栏新智元

【AI研究者为什么喜欢游戏】DeepMind、Open AI和微软争相开源游戏训练平台

【新智元导读】游戏,更准确地说,模拟场景对于人工智能的研发来说是一个非常理想的场所,对于人工智能技术走向实际应用有着不容忽视的推动作用。目前,DeepMind、...

3268
来自专栏华章科技

普通程序员如何转向AI方向?

本文的目的是给出一个简单的,平滑的,易于实现的学习方法,帮助 “普通” 程序员踏入AI领域这个门。这里,我对普通程序员的定义是:拥有大学本科知识;平时工作较忙;...

412

扫描关注云+社区