微软研究院最新论文:机器具备连续图像叙事能力

【新智元导读】微软团队 NAACL 2016 论文,描述微软“连续图像叙事数据库”(SIND),也是首个用于连续视觉-语言转换的数据集,能逐步将独立图像转变为连续的故事。虽然有时结果让人啼笑皆非,但这是让人工智能像人一样理解事物、进行主观表达的一个进步。

视觉叙事(Visual Storytelling)

摘要

我们介绍首个用于连续视觉-语言转换的数据集,并探索在视觉叙事任务中如何应用该数据集。在该数据集首次发布的版本——SIND v.1——中,包括81,743个不同照片,排列成符合文字描述和故事情节的20,211个序列。我们为叙事任务建立了一些高性能的基线,并对评测过程制定了自动化指标。通过对该数据集及叙事任务中提供的具体描述和形象的社交化语言进行建模,有望将人工智能的水平从只能对典型视觉场景进行基本的理解,提高到对基础的事件结构和主观表达能够越来越接近人类理解的水准。

1. 引言

除了对简单对象和具体场景的理解之外,还要解释其中的因果结构;理解视觉输入需要将不同时刻绑定在一起,因为不同的时刻在时间上会产生紧密联系的事件描述。这就需要将推理的对象从静态时刻的、没有上下文的单一图片,转变为描述事件发展的图片序列。

在视觉方面,从最初的单一图片变为有上下文关系的图片,让我们开始创造出一个可以根据之前见过的视觉事件推断当前的视觉事件的人工智能。

在语言方面,从最初的文字描述到故事叙述有助于学习更多的评价、会话以及抽象的语言。这之间的差别就像,“坐在一起”和“度过愉快的时光”之间的差别,或者“太阳正在落山”和“天空映射着晚霞的光辉”之间的差别(如图1)。前者描述捕捉到的图片的内容是具体文字;而后者的描述则需要进一步判断什么样的情景才是“愉快的时光”,或者对于一个特定的日落,什么才是特别的和值得分享的。

我们介绍的首个带有相应描述的连续图像数据集,它掌握了其中一些微妙但重要的差异,促进了视觉叙事任务的发展。对相同的图像,我们从三个语言层面来发布数据:(1)独立图像描述(DII, Descriptions of images-in-isolation);(2)连续图像描述(DIS, Descriptions of images-in-sequence);(3)连续图像叙事(Stories for images-in-sequence)。

这种分层的方法揭示了时间先后和叙事语言的影响。由于所有层次都是来自相同的图像,数据集直接提高了对文字和更抽象的视觉概念之间关系,以及视觉图像和典型事件模式之间关系的建模效果。另外,我们还提出了一个与人类判断关联最大的自动评价指标,并建立了视觉叙事任务的若干性能优越的基线。

2. 背景

叙事本身就是最古老的人类活动之一,提供了教育、保护文化、灌输道德、以及建议的方式方法;将AI的研究方向汇集于叙事任务将有望带来更多的类人智能以及做出更像人类的理解。

图1:独立图像描述(DII)和连续图像故事(SIS)之间差别的语句举例

3. 数据集构成

提取照片(略)

连续画面的众包故事 我们开发一个2段众包的工作流来收集符合图像的自然的故事文本。第一阶段是叙事,在这个阶段,参与者会从指定的相册中选择一个照片子集,形成一个照片序列,并为这个照片序列写一个故事(如图3)。第二个阶段是复述,在这个阶段中参与者会根据第一阶段中产生的照片序列,来写出一个故事。

图3:故事叙述任务的界面,包括:1)照片专辑,2)故事情节板

独立图像及连续图像的众包描述 我们也用众包来收集DII及DIS的描述,其中带有故事描述的照片序列来自于第一个任务中的大多数参与者(如图2↓)。

后期数据处理 我们用CoreNLP分词器对所有的故事叙述和描述进行分词,然后将所有人名用更一般化的男性/女性来代替,将所有被命名的实体用其类别来代替。

图4:独立图像描述(DII);连续图像描述(DIS);以及连续图像叙事(SIS)举例

4. 数据分析

5. 自动化评测标准

鉴于故事叙述任务的复杂性,对于生成的故事的质量的评估,最好的并且最可靠的评价方法就是依靠人类的判断。然而,自动评价指标对于进行快速测试是很有用的。

为了更好的了解哪些指标可以代替人力评估,我们从SIS训练集中抽样了3000个故事,并分别计算了自动指标和人类判断之间的相关系数。

点击看大图

7. 结论及未来工作

我们介绍了首个用于连续视觉-语言转换的数据集,该数据集逐步地从独立图像转变为连续的故事。我们认为对从该数据集中捕获的更形象和社交化的语言进行建模,对于推动AI向更接近人类的方式理解问题有着极其重要的作用。对于视觉叙事的任务我们建立了性能优越的基线,并且利用METEOR作为自动指标来评价该工作的进展情况。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-06-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

Karpathy更新深度学习开源框架排名:TensorFlow第一,PyTorch第二

上周,Keras作者、谷歌研究科学家François Chollet晒出一张图,他使用Google Search Index,展示了过去三个月,ArXiv上提到...

444100
来自专栏AI研习社

学 AI 和机器学习的人必须关注的 6 个领域

近期热门的话题, 人们开始重新讨论这一基本定义----什么是人工智能(AI)。有些人将 AI 重新命名为「认知计算」或「机器智能」,而其他人则错误地将 AI ...

16320
来自专栏量子位

谷歌大脑2017总结(Jeff Dean执笔,干货满满,值得收藏)

李杉 维金 编译自 Google Blog 量子位 出品 | 公众号 QbitAI 谷歌AI Senior Fellow、谷歌大脑负责人Jeff Dean,按照...

376120
来自专栏专知

【下载】面向机器智能的TensorFlow实践书籍和代码

【导读】自2015年11月TensorFlow第一个开源版本发布以来,它便迅速跻身于最激动人心的机器学习库的行列,并在科研、产品和教育等领域正在得到日益广泛的应...

45580
来自专栏人工智能快报

AI系统能帮助合成新材料

麻省理工学院的三位材料科学家及其同事发表的论文中,描述其 AI系统可通过科学论文和提取“食谱”合成特定类型的材料。 2017年11月,美国麻省理工学院的三位材料...

31040
来自专栏AI科技评论

学界 | Michael I.Jordan:AI 时代变革,源于应用场景中的优化算法

AI 科技评论按:8 月 9 日,为期两周的 2018 国际数学家大会(ICM)在里约热内卢完美谢幕,来自全球一百多个国家的 3000 多位数学家出席了本次盛会...

11610
来自专栏机器之心

专栏 | 情感计算是人机交互核心?谈深度学习在情感分析中的应用

竹间智能专栏 作者:竹间智能自然语言与深度学习小组 除自然语言理解(NLU)外,情感计算(Affective Computing)也成为近年来 AI 领域热门的...

41050
来自专栏机器人网

一图了解人工智能之机器学习学习路径

1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯...

472130
来自专栏新智元

MIT 对抗学习和无监督学习最新进展:机器学会创作视频,预测人类行为

【新智元导读】LeCun曾在演讲中提到,2016年深度学习领域最让他兴奋的技术莫过于对抗学习,而无监督学习一直都是人工智能研究者孜孜追求的“终极目标”之一。MI...

402100
来自专栏机器人网

漫谈游戏的深度学习算法,从FPS和RTS角度分析

人工智能那么火热,作为游戏行业的技术人员可定也不会放过,今天,我们就一起来聊聊,在游戏中人工智能是如何实现深度学习技术的。  我们关注基于深度学习的游戏 AI ...

577140

扫码关注云+社区

领取腾讯云代金券