前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >微软研究院最新论文:机器具备连续图像叙事能力

微软研究院最新论文:机器具备连续图像叙事能力

作者头像
新智元
发布2018-03-26 16:44:44
1K0
发布2018-03-26 16:44:44
举报
文章被收录于专栏:新智元

【新智元导读】微软团队 NAACL 2016 论文,描述微软“连续图像叙事数据库”(SIND),也是首个用于连续视觉-语言转换的数据集,能逐步将独立图像转变为连续的故事。虽然有时结果让人啼笑皆非,但这是让人工智能像人一样理解事物、进行主观表达的一个进步。

视觉叙事(Visual Storytelling)

摘要

我们介绍首个用于连续视觉-语言转换的数据集,并探索在视觉叙事任务中如何应用该数据集。在该数据集首次发布的版本——SIND v.1——中,包括81,743个不同照片,排列成符合文字描述和故事情节的20,211个序列。我们为叙事任务建立了一些高性能的基线,并对评测过程制定了自动化指标。通过对该数据集及叙事任务中提供的具体描述和形象的社交化语言进行建模,有望将人工智能的水平从只能对典型视觉场景进行基本的理解,提高到对基础的事件结构和主观表达能够越来越接近人类理解的水准。

1. 引言

除了对简单对象和具体场景的理解之外,还要解释其中的因果结构;理解视觉输入需要将不同时刻绑定在一起,因为不同的时刻在时间上会产生紧密联系的事件描述。这就需要将推理的对象从静态时刻的、没有上下文的单一图片,转变为描述事件发展的图片序列。

在视觉方面,从最初的单一图片变为有上下文关系的图片,让我们开始创造出一个可以根据之前见过的视觉事件推断当前的视觉事件的人工智能。

在语言方面,从最初的文字描述到故事叙述有助于学习更多的评价、会话以及抽象的语言。这之间的差别就像,“坐在一起”和“度过愉快的时光”之间的差别,或者“太阳正在落山”和“天空映射着晚霞的光辉”之间的差别(如图1)。前者描述捕捉到的图片的内容是具体文字;而后者的描述则需要进一步判断什么样的情景才是“愉快的时光”,或者对于一个特定的日落,什么才是特别的和值得分享的。

我们介绍的首个带有相应描述的连续图像数据集,它掌握了其中一些微妙但重要的差异,促进了视觉叙事任务的发展。对相同的图像,我们从三个语言层面来发布数据:(1)独立图像描述(DII, Descriptions of images-in-isolation);(2)连续图像描述(DIS, Descriptions of images-in-sequence);(3)连续图像叙事(Stories for images-in-sequence)。

这种分层的方法揭示了时间先后和叙事语言的影响。由于所有层次都是来自相同的图像,数据集直接提高了对文字和更抽象的视觉概念之间关系,以及视觉图像和典型事件模式之间关系的建模效果。另外,我们还提出了一个与人类判断关联最大的自动评价指标,并建立了视觉叙事任务的若干性能优越的基线。

2. 背景

叙事本身就是最古老的人类活动之一,提供了教育、保护文化、灌输道德、以及建议的方式方法;将AI的研究方向汇集于叙事任务将有望带来更多的类人智能以及做出更像人类的理解。

图1:独立图像描述(DII)和连续图像故事(SIS)之间差别的语句举例

3. 数据集构成

提取照片(略)

连续画面的众包故事 我们开发一个2段众包的工作流来收集符合图像的自然的故事文本。第一阶段是叙事,在这个阶段,参与者会从指定的相册中选择一个照片子集,形成一个照片序列,并为这个照片序列写一个故事(如图3)。第二个阶段是复述,在这个阶段中参与者会根据第一阶段中产生的照片序列,来写出一个故事。

图3:故事叙述任务的界面,包括:1)照片专辑,2)故事情节板

独立图像及连续图像的众包描述 我们也用众包来收集DII及DIS的描述,其中带有故事描述的照片序列来自于第一个任务中的大多数参与者(如图2↓)。

后期数据处理 我们用CoreNLP分词器对所有的故事叙述和描述进行分词,然后将所有人名用更一般化的男性/女性来代替,将所有被命名的实体用其类别来代替。

图4:独立图像描述(DII);连续图像描述(DIS);以及连续图像叙事(SIS)举例

4. 数据分析

5. 自动化评测标准

鉴于故事叙述任务的复杂性,对于生成的故事的质量的评估,最好的并且最可靠的评价方法就是依靠人类的判断。然而,自动评价指标对于进行快速测试是很有用的。

为了更好的了解哪些指标可以代替人力评估,我们从SIS训练集中抽样了3000个故事,并分别计算了自动指标和人类判断之间的相关系数。

点击看大图

7. 结论及未来工作

我们介绍了首个用于连续视觉-语言转换的数据集,该数据集逐步地从独立图像转变为连续的故事。我们认为对从该数据集中捕获的更形象和社交化的语言进行建模,对于推动AI向更接近人类的方式理解问题有着极其重要的作用。对于视觉叙事的任务我们建立了性能优越的基线,并且利用METEOR作为自动指标来评价该工作的进展情况。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-06-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档