专栏首页深度学习和计算机视觉CVPR 2020 论文大盘点-动作识别篇

CVPR 2020 论文大盘点-动作识别篇

本文盘点所有CVPR 2020 动作识别(Action Recognition )相关论文,该方向也常被称为视频分类(Video Classification )。从后面的名字可以看出该任务就是对含人体动作的视频进行分类。

(关于动作检测、分割、活动识别等方向将在后续文章整理)

该部分既包含基于普通视频的动作识别,也包含基于深度图和基于骨架的动作识别。

因为视频既包含空域信息,又包含时域信息,所以时空信息的融合、特征提取是该领域的重要方向。

因为视频往往数据量大,信息冗余,是典型的计算密集型任务,以往的方法往往(如3D CNN)计算代价很高,提高(训练/推断)速度也是不少论文研究的方向。

特别值得一提的是斯坦福大学、MIT、谷歌发表的两篇基于视频的无监督表示学习,不仅可用于动作识别,其可以看作为通用的视觉特征提取方法,相信会对未来的计算机视觉研究产生重要影响。

大家可以在:

http://openaccess.thecvf.com/CVPR2020.py

按照题目下载这些论文。

动作识别(Action Recognition)

细粒度动作识别的多模态域适应技术,使用RGB与光流数据,解决动作识别在不同数据集上训练和测试性能下降的问题。

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

作者 | Jonathan Munro, Dima Damen

单位 | 布里斯托大学

时间金字塔网络(TPN)用于动作识别,可方便“即插即用”到2D和3D网络中,显著改进动作识别的精度。

Temporal Pyramid Network for Action Recognition

作者 | Ceyuan Yang, Yinghao Xu, Jianping Shi, Bo Dai, Bolei Zhou

单位 | 香港中文大学;商汤

代码 | Temporal Pyramid Network for Action Recognition

主页 | https://decisionforce.github.io/TPN/

提出motion excitation (ME) 模块 和 multiple temporal aggregation (MTA) 模块用于捕获短程和长程时域信息,提高动作识别的速度和精度。

TEA: Temporal Excitation and Aggregation for Action Recognition

作者 | Yan Li, Bin Ji, Xintian Shi, Jianguo Zhang, Bin Kang, Limin Wang

单位 | 腾讯;南京大学;南方科技大学

提取视频特征往往需要计算密集的3D CNN操作,该文发明一种 Gate-Shift Module (GSM) 模块利用分组空间选通方法控制时空分解交互,大大降低了视频动作识别算法复杂度。

Gate-Shift Networks for Video Action Recognition

作者 | Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz

单位 | FBK,Trento, Italy;巴塞罗那大学

代码 | https://github.com/swathikirans/GSM

高效视频识别的扩展架构,降低参数量减少计算量

X3D: Expanding Architectures for Efficient Video Recognition

作者 | Christoph Feichtenhofer

单位 | FAIR

代码 | https://github.com/facebookresearch/SlowFast

3D CNN的正则化

该文提出一种简单有效的针对3D CNN 的正则化方法:Random Mean Scaling (RMS),防止过拟合。

Regularization on Spatio-Temporally Smoothed Feature for Action Recognition

作者 | Jinhyung Kim, Seunghwan Cha, Dongyoon Wee, Soonmin Bae, Junmo Kim

单位 | KAIST;卡内基梅隆大学;Clova AI, NAVER Corp

结合视觉、语音、文本的动作识别

动作识别的跨模态监督信息提取(文本-语音-视觉识别的结合)

该文研究了一个非常有意思的问题,通过电影视频中语音与对应台词构建一个动作识别的分类器,然后用此模型对大规模的视频数据集进行了弱监督标注,使用此标注数据训练的模型在动作识别问题中取得了superior的精度。

Speech2Action: Cross-Modal Supervision for Action Recognition

作者 | Arsha Nagrani, Chen Sun, David Ross, Rahul Sukthankar, Cordelia Schmid, Andrew Zisserman

单位 | VGG, Oxford;谷歌;DeepMind

面对视频分类中巨大的数据冗余,该文提出图像-音频对的概念,图像表示了视频中绝大部分表观信息,音频表示了视频中的动态信息,找到这些图像-音频对后再选择一部分用于视频分类,精度达到SOTA,还大大提高了动作识别的速度。

Listen to Look: Action Recognition by Previewing Audio

作者 | Ruohan Gao, Tae-Hyun Oh, Kristen Grauman, Lorenzo Torresani

单位 | 得克萨斯大学奥斯汀分校;FAIR

代码 | https://github.com/facebookresearch/Listen-to-Look

动作识别中的时空信息融合

如何在动作识别中进行更好的时空信息融合是涉及更好的动作识别算法的关键,该文提出在概率空间理解、分析时空融合策略,大大提高分析效率,并提出新的融合策略,实验证明该策略大大提高了识别精度。

Spatiotemporal Fusion in 3D CNNs: A Probabilistic View

作者 | Yizhou Zhou, Xiaoyan Sun, Chong Luo, Zheng-Jun Zha, Wenjun Zeng

单位 | 中国科学技术大学;微软亚洲研究院

视频模型训练策略

何恺明团队作品。该文提出一种多网格训练策略训练视频分类模型,大大降低训练时间,精度得以保持,甚至还有提高。

A Multigrid Method for Efficiently Training Video Models

作者 | Chao-Yuan Wu, Ross Girshick, Kaiming He, Christoph Feichtenhofer, Philipp Krahenbuhl

单位 | 得克萨斯大学奥斯汀分校;FAIR

代码| https://github.com/facebookresearch/SlowFast

解读 | https://zhuanlan.zhihu.com/p/105287699

少样本视频分类

李飞飞团队作品。该文提出动作基因组(Action Genome)的概念,将动作看作时空场景图的组合,在少样本的动作识别问题中提高了精度。

Action Genome: Actions As Compositions of Spatio-Temporal Scene Graphs

作者 | Jingwei Ji, Ranjay Krishna, Li Fei-Fei, Juan Carlos Niebles

单位 | 斯坦福大学

通过视频信号的时序校正模块提高少样本的视频分类精度

Few-Shot Video Classification via Temporal Alignment

作者 | Kaidi Cao, Jingwei Ji, Zhangjie Cao, Chien-Yi Chang, Juan Carlos Niebles

单位 | 斯坦福大学

基于视频的无监督表示学习

无监督嵌入的视频表示学习。因为视频中含有丰富的动态结构信息,而且无处不在,所以是无监督视觉表示学习的最佳素材。本文在视频中学习视觉嵌入,使得在嵌入空间相似视频距离近,而无关视频距离远。在大量视频中所学习的视觉表示可大幅提高动作识别、图像分类的精度。

(感觉这个工作很有价值,代码开源,值得follow)

Unsupervised Learning From Video With Deep Neural Embeddings

作者 | Chengxu Zhuang, Tianwei She, Alex Andonian, Max Sobol Mark, Daniel Yamins

单位 | 斯坦福大学;MIT

代码 | https://github.com/neuroailab/VIE

同上一篇,同样是希望在大规模视频数据中学习视觉表示。

多模多任务的无监督表示学习,跨模态通过蒸馏进行表示共享。

该自监督方法打败了ImageNet数据集上训练的有标注数据训练的模型。

Evolving Losses for Unsupervised Video Representation Learning

作者 | AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo

单位 | 谷歌

合成动作识别

用于识别训练集没有的,对操作物体进行替换的动作

Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks

作者 | Joanna Materzynska, Tete Xiao, Roei Herzig, Huijuan Xu, Xiaolong Wang, Trevor Darrell

单位 | 牛津大学;伯克利;以色列特拉维夫大学

代码 | https://github.com/joaanna/something_else

主页 | https://joaanna.github.io/something_else/

深度视频的动作识别

3DV: 3D Dynamic Voxel for Action Recognition in Depth Video

作者 | Yancheng Wang, Yang Xiao, Fu Xiong, Wenxiang Jiang, Zhiguo Cao, Joey Tianyi Zhou, Junsong Yuan

单位 | 华中科技大学;旷视;A*STAR等

代码 | https://github.com/3huo/3DV-Action

基于骨架的动作识别

Skeleton-Based的动作识别,基于图卷积方法

Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

作者 | Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang

单位 | 悉尼大学;国科大&CASIA;悉尼大学计算机视觉研究小组

代码 | https://github.com/kenziyuliu/ms-g3d

Skeleton-Based动作识别,Shift Graph卷积网络方法

Skeleton-Based Action Recognition With Shift Graph Convolutional Network

作者 | Ke Cheng, Yifan Zhang, Xiangyu He, Weihan Chen, Jian Cheng, Hanqing Lu

单位 | 中科院;国科大等

代码 | https://github.com/kchengiva/Shift-GCN

无监督Skeleton-Based的动作识别。该文提出一种编码器-解码器的RNN模型,可进行无监督的聚类,而此聚类结果可关联动作的类别,即也可以可以堪为预测。

此无监督方法在基于骨架的动作识别中取得了与监督学习方法相相近的精度!

(也许表明:人体动作本身类间差异就足够大?)

PREDICT & CLUSTER: Unsupervised Skeleton Based Action Recognition

作者 | Kun Su, Xiulong Liu, Eli Shlizerman

单位 | 华盛顿大学

代码 | https://github.com/shlizee/Predict-Cluster

语义引导的神经网络,用于Skeleton-Based人类动作识别,SGN 方案仅需非常小的参数量(仅0.69M)就实现了很高的识别精度。

Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition

作者 | Pengfei Zhang, Cuiling Lan, Wenjun Zeng, Junliang Xing, Jianru Xue, Nanning Zheng

单位 | 西安交通大学;微软亚洲研究院;中科院自动化所

代码 | https://github.com/microsoft/SGN

上下文感知的图卷积,用于Skeleton-Based动作识别

Context Aware Graph Convolution for Skeleton-Based Action Recognition

作者 | Xikun Zhang, Chang Xu, Dacheng Tao

单位 | UBTECH Sydney AI Centre;悉尼大学

数据集

面向细粒度动作分析的层级化高质量数据集

FineGym: A Hierarchical Video Dataset for Fine-Grained Action Understanding

作者 | Dian Shao, Yue Zhao, Bo Dai, Dahua Lin

单位 | 香港中文大学与商汤联合实验室

代码/数据 | https://sdolivia.github.io/FineGym/

备注 | CVPR2020 Oral ,评审满分论文

解读 | https://zhuanlan.zhihu.com/p/130720627

本文分享自微信公众号 - 小白学视觉(NoobCV)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-07-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用OpenCV+Tensorflow跟踪排球的轨迹

    我是个排球迷,所以让我们来看看最后一个网站,这是一个奥地利研究所的网站,他分析了当地业余联赛的比赛数据。

    小白学视觉
  • CVPR2020 | 3D目标检测点云检测新网络 PV-RCNN

    今天这一篇是19年12月30日放到arxiv上的,其实在CVPR2020截止后就一直在关注在关注的一篇文章,毕竟在KITTI的3D检测上高居榜首,并且远远的超过...

    小白学视觉
  • 【从零学习OpenCV 4】图像中添加高斯噪声

    经过几个月的努力,小白终于完成了市面上第一本OpenCV 4入门书籍《从零学习OpenCV 4》。为了更让小伙伴更早的了解最新版的OpenCV 4,小白与出版社...

    小白学视觉
  • CVPR 2020 论文大盘点-动作识别篇

    本文盘点所有CVPR 2020 动作识别(Action Recognition )相关论文,该方向也常被称为视频分类(Video Classification ...

    CV君
  • 使用 jsDelivr 免费加速 GitHub Pages 博客的静态资源

    挺久以前就有网友给我的 GitHub Pages 博客模板提 Issue,说希望能增加 CDN 用于加速静态资源的加载,由于懒,一直没有动。

    mzlogin
  • 澳洲山火虚假信息复盘:击溃人心一时易,核查辟谣路漫漫

    自去年9月以来,澳大利亚新南威尔士州和维多利亚州的森林大火已造成27人丧生,大量动植物死亡,超2000处房屋毁于一旦,无数人流离失所,这场肆虐了5个多月的大火...

    腾讯大讲堂
  • 遗传算法系列之五:多目标遗传算法和遗传编程

    在遗传算法深入研究的阶段,人们提出将各种将遗传算法应用到更广泛领域,从而产生了一些有趣的后续工作。这些后续工作中,多目标遗传算法和遗传编程由于它们重要...

    AlgorithmDog
  • iOS开发常用之开源总结

    GuangdongQi
  • iOS程序员面试,绝对会遇到这些问题!

    iOSSir
  • 100个iOS开发/设计程序员面试题汇总,你将如何作答?

    无论是对于公司还是开发者或设计师个人而言,面试都是一项耗时耗钱的项目,本文作者CameronBanga从编程、设计、AppStore等各个方面对iOS开发者及设...

    华章科技

扫码关注云+社区

领取腾讯云代金券