港中文林达华团队提出计算机视觉新方向:电影情节分析

编译|马卓奇编辑|Natalie介绍“你要好好活下去,不管发生什么,都不要放弃希望。”这令人心碎的场景来自电影《泰坦尼克号》,是由詹姆斯卡梅隆导演的史诗级浪漫灾难电影,感动了每一位观众。

电影蕴含着巨大的价值,不仅仅是因为它的娱乐功能,更是因为它是人类文化、社会和历史的缩影。从计算机视觉研究的角度来看,他们也是宝贵的数据资源。虽然电影早已进入计算机视觉研究的视线,但是关于电影数据的一个重要问题却鲜有提及——我们可以用视觉模型来进行电影理解吗?这篇论文的目的是研究一种电影理解方法,从低级特征表示到高级语义分析。这一问题面临两个重要挑战:计算以及标注数据所需的成本过高。

图1我们提出了一个有效的框架来分析电影,分别通过从预告片中学习视觉模型,和从电影中重构时序结构,不仅可以预测镜头级别的标注,并且可以应用于电影分析的各种任务中,例如镜头检索,镜头预测和电影问答。为了支持这一研究工作,以及未来对该研究方向的扩展,我们构建了一个大型电影和预告片数据集LSMTD,并且定义了一系列方法来评价电影分析模型。

图2LSMTD样本展示。黑色单词为电影标题,红色为流派关键词,蓝色为情节关键词。电影分析框架为了提高模型学习效率,我们并不是用所有的帧来进行学习,而是以镜头作为单元,因为一个镜头内的帧通常相似度很高。基于镜头,提出的框架将学习任务分解为两个部分,分别是从预告片中学习视觉表示,以及从电影中学习时序结构。

图3从预告片中学习视觉表示该部分模型通过两步将镜头进行解码:通过卷积网络提取每帧的特征,然后将每帧的特征结合成基于镜头的表示。这里需要解决的问题是如何快速有效的训练该模型。基于镜头的表示虽然预告片相比于整部电影已经很短,一帧一帧的分析依然是十分耗时的。但是预告片具有一个特殊性质,即预告片中每个镜头的帧之间通常十分相近。

图5Q&A模型整体结构。表4电影问答结果表4给出了在“Movie361”和“Trailer33K”的测试结果,并且和SSCB方法进行比较。可以看出,在预告片上学习到的特征的表现超越了从电影中学习到的特征。这也验证了我们的假设——在预告片上学习电影的视觉表示很有效。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180909A0QB9P00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券