专栏首页人工智能前沿讲习SFFAI分享 | 高君宇:图神经网络在视频分类中的应用【附PPT与视频资料】

SFFAI分享 | 高君宇:图神经网络在视频分类中的应用【附PPT与视频资料】

关注文章公众号 回复"SFFAI27"获取PPT资料 视频资料可点击下方阅读原文在线观看

作者介绍


高君宇,中国科学院自动化研究所博士生,导师为徐常胜研究员。研究方向为基于深度学习的视频理解与应用。在IEEE Transaction on Image Processing(TIP)、CVPR、AAAI、ACM MM等CCF推荐的A类期刊、会议中发表多篇一作论文。获得了国家奖学金、中国科学院大学三好学生、三好学生标兵、百度奖学金、必和必拓奖学金、Rokid奖学金等。

高君宇

导读


当前,有监督的行为分类方法取得了显著的进展和很好的效果,但是这些方法依赖于大量的标注样本,而标注这些数据是极为耗时耗力的。因此,零样本视频分类的方法应运而生。目前,通过自动挖掘潜在概念(如行为、属性等)进行零样本视频分类的方法获得了极大的成功。但是,大多数现有方法只利用了视频的视觉信息而忽视了对这些概念之间的显式关系建模。因此,我们提出了一个基于知识图谱的端到端零样本行为识别框架,其可以联合建模行为-属性、属性-属性、行为-行为之间的关系。具体的,我们设计了一个双支图卷积神经网络,其包括一个分类器支和一个实例支。分类器支输入所有概念的词向量并产生对应概念的分类器。实例支将属性的词向量和和每个视频实例的属性得分映射到一个特征空间中。最后,学习到的分类器在产生的属性特征上进行评估,并通过一个分类损失进行端到端地整体优化。实验结果表明提出方法具有很好的效果。

1. Introduction


近期有监督行为识别方面的研究有了长足的进展,这主要得益于鲁棒的深度学习方法框架和大规模的标注数据。然而,随着不断增长的行为类别,传统的有监督方法受到了类别可扩展性的限制。这些方法需要大量的、高花费的标注视频,使得这些方法很难泛化到未知类上。为了解决这个问题,零样本行为识别(Zero-Shot Action Recognition, ZSAR)吸引了学界的广泛关注,其可以不使用任何标注样本而能够识别未知类别。

现有的ZSAR工作主要基于两种方式:(1)如图1 (a)所示,一些方法使用人类定义的属性来进行分类,其仅仅利用了行为-属性之间的关系来区分新的行为类别。另一方面,由于属性很难预先定义,因此在实际场景中,这些基于属性的方法很难以泛化到任意的未知类上。(2)另一些方法使用行为名称的语义表示(如词向量等)在一个语义空间中建模行为-行为之间的关系,如图1 (b)所示。即使这些方法简单且高效,这种词向量空间只能隐式地表示行为-行为之间的关系。另外,这些方法很难利用到视频的其他辅助信息。最近,受到物体和行为之间的强相关关系,许多方法把物体作为属性来进行零样本行为分类,并且获得了良好的效果。这些方法使用预训练的物体分类器来寻找视频中的物体,然而,其仅仅以固定的相似度权重考虑了行为-物体(属性)之间的关系,因此缺乏良好的端到端训练。

图1 3种零样本视频识别框架

除了上述提到的问题,大多数已有方法仅仅聚焦于视频的视觉特征而忽略了外部知识信息对零样本分类的指导作用。实际上,人类具有显著地能力来根据自身经验识别现实世界中的客观概念实体。因此,用结构化的知识信息建模各种概念(行为类别、属性等)之间关系是非常直观的。并且,这些知识信息有助于指导已知类上学习到的模型向未知类上迁移。近期,知识图谱成功的应用到了各种计算机视觉任务中,如物体检测、多标签图片分类、零样本物体识别等等。通过在已知方法中引入知识图谱,实验效果获得了显著的提升。这说明了知识图谱确实具有补充现有方法所存在的知识鸿沟的能力。因此,在零样本行为识别中使用知识图谱也是非常有潜力的。另外,目前的方法大多忽略了视频的时序建模,比如直接在所有视频帧上使用均值池化等。但是,许多研究表明使用时序信息对视频理解是十分有帮助的。

2. Our Methods


受启发于上述观察,如图1 (c)所示我们提出了一个新颖的零样本视频分类方法,在一个端到端的框架中使用知识图谱来直接地、全面地建模行为-属性、属性-属性、行为-行为之间的关系。事实上,这几类关系都可以直接或者间接地提升零样本学习的效果。这里,为了避免繁琐的属性标注,我们使用物体作为属性信息。为了高效地使用知识图谱中的知识信息,我们使用图卷积网络来在概念节点见建模和传递信息。具体的,我们提出了一个双支图卷积网络(Two-Stream GCN, TS-GCN),其包括一个分类器支和一个实例支。知识图谱被有机地嵌入到了这两个分支中来建模上述三种关系类型,如图2所示。

图2 TS-GCN框架

分类器支以所有概念的词向量表示为输入,对不同的行为种类产生分类器参数。实例支根据视频中的物体得分产生相应的属性特征。我们最终使用分类器支和实例支的输出,以一个分类损失来优化整个框架,如下式所示:

另外,为了建模视频的时序信息,我们在实例支中使用了一个自注意力模型来建模视频中动态变化的物体得分分布。在训练过程中,可见类上的分类器参数通过有监督的方式进行学习。在测试阶段,训练好的模型以未知类上的视频特征为输入,产生在未知类上的预测分数。在三个视频数据集上的结果表示我们的方法取得了较好的效果,如下表所示。

3. Take Home Message


  1. 考虑更丰富的知识信息,如边的类型等;结合图推理方法等;
  2. 研究动态的图学习方法,以适应节点数目动态变化的场景;
  3. 大规模图网络学习方法,值得研究;

4. Reference


[1] Junyu Gao, Tianzhu Zhang, Changsheng Xu. I Know the Relationships: Zero-Shot Action Recognition via Two-Stream Graph Convolutional Networks and Knowledge Graphs. AAAI, 2019.

[2] Wang, Xiaolong, Yufei Ye, and Abhinav Gupta. Zero-shot recognition via semantic embeddings and knowledge graphs. CVPR, 2018.

[3] Kampffmeyer, Michael, et al. Rethinking knowledge graph propagation for zero-shot learning. CVPR, 2019.

[4] Lee, Chung-Wei, et al. Multi-label zero-shot learning with structured knowledge graphs. CVPR, 2018.

SFFAI招募召集人!

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 精选论文 | 计算摄影学【附打包下载】

    引用:Narasimha R , Batur A U . A real-time high dynamic range HD video camera.[C]/...

    马上科普尚尚
  • 图像/人脸补全问题的前世今生【附PPT与视频资料】

    近年来,图像补全问题在应用深度学习技术的条件下已经实现了较好的补全效果,甚至于人眼也难以分辨。故而,该技术也已经成为图像补全问题上的一个研究热点。同时,如何修改...

    马上科普尚尚
  • 吴恩达《ML Yearning》| 关于开发集、测试集的搭建

    MachineLearning Yearning Sharing 是北京科技大学“机器学习研讨小组”旗下的文献翻译项目,其原文由Deep Learning.ai...

    马上科普尚尚
  • 几种常用的排序算法之JavaScript实现

    Jerry Wang
  • 独家 | 一文读懂集成学习(附学习资源)

    本文是数据派研究部“集成学习月”的第一篇文章,本月将陆续发布关于集中学习的话题内容,月末将有答题互动活动来赢奖,欢迎随时留言讨论相关话题。 集成算法(Ensem...

    数据派THU
  • Numpy中如何给矩阵增加一行或一列

    使用Python的numpy的array结构,如何给矩阵增加一行或者一列呢? 下面提供一种方法,当然numpy还提供了很多API函数可供选择。

    卡尔曼和玻尔兹曼谁曼
  • 22篇入选,15 篇 CVPR 2020 精选论文详解

    近日,计算机视觉领域“奥斯卡”CVPR 2020官方公布论文收录结果,伴随投稿数量激增,接收率开始经历了一个持续下降的过程。今年,在6656篇有效投稿中,共有1...

    AI科技评论
  • 一起来用python实现一下十大经典排序算法

    既然之前很多小伙伴反应希望公众号多发点算法类的文章,那就来呗。先从简单的入手好了,带大家用python来实现一波十大经典排序算法呗。分别是:

    double
  • 强烈推荐:9 款用起来超爽的编程字体!

    Consolas 是一套等宽字体的字型,属无衬线字体,由 Lucas de Groot 设计,这套字型使用了微软的 ClearType 字型平滑技术,非常好看。

    GitHubDaily
  • 强烈推荐:9 款用起来超爽的编程字体!

    Consolas 是一套等宽字体的字型,属无衬线字体,由 Lucas de Groot 设计,这套字型使用了微软的 ClearType 字型平滑技术,非常好看。

    帅地

扫码关注云+社区

领取腾讯云代金券