专栏首页人工智能前沿讲习【源头活水】CVPR 2021 | 利用时序差分进行动作识别的最新Backbone--TDN

【源头活水】CVPR 2021 | 利用时序差分进行动作识别的最新Backbone--TDN

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

作者:知乎—不起眼的木头君

地址:https://www.zhihu.com/people/tongzhan

本文将介绍我们组NJU-MCG(http://mcg.nju.edu.cn/) 在行为识别(Action Recognition)领域被CVPR 2021接收的一篇工作 TDN: Temporal Difference Networks for Efficient Action Recognition。

论文链接(CVPR camera ready版本已更新到arxiv):

https://arxiv.org/abs/2012.10071

Github代码链接 (欢迎大家多多 star ⭐️⭐️⭐️ ):

https://github.com/MCG-NJU/TDN

01

任务介绍

动作识别 (Action Recognition) :对给定剪裁过视频(Trimmed Video)进行分类,识别这段视频中人物的动作。目前的主流方法有 2D-based (TSN, TSM, TEINet, etc.) 和 3D-based(I3D, SlowFast, X3D)。动作识别作为视频领域的基础任务,常常作为视频领域其他 high-level task/downstream task 的 backbone,去提取 video-level or clip-level 的视频特征。

02

研究动机

目前 3D-based 的方法在大规模的 scene-based 的数据集(如kinetics)上相对于2D的方法取得了更好的效果,但是3D-based也存在一些明显的问题:

  • 3D-based 的网络参数量大,计算开销大,训练的 scheduler 更长,inference latency 明显慢于 2D-based 的方法。
  • 3D卷积其实并不能很好得学到时序上信息的变化,而且3D卷积学出来的时序Kernel的weight的分布基本一致,更多的还是对时序上的信息做一种 smooth aggregation。这一点在我们组之前的工作TANet(https://arxiv.org/abs/2005.06803) 中有比较详细的讨论,大家有兴趣也可以参考这篇 TANet 的解读文章(https://zhuanlan.zhihu.com/p/150147794)。也基于此,3D-based 的网络在Something-Something这种对时序信息比较敏感的video数据集上并不能取得很好的效果( 得靠 Kinetics 的pre-train来提点 :)

基于以上几点,我们组最近一直在探索更高效的2D-based的时序建模方法,提出了包括 TSN,TEINet,TEA,TAM 等轻量级的时序 video backbone。

我们今天要介绍的这篇工作 TDN 的研究动机也很直接明了:我们能不能将时序上运动的变化显式得提取出来然后加入到网络中呢?

最早在14年 VGG 就提出了大名鼎鼎的 Two-Stream(https://arxiv.org/abs/1406.2199) 网络,通过将光流(Optical Flow)信息做为输入去提取时序上的运动信息。但是 Two-Stream 网络需要两个独立分离的Backbone,计算量直接翻倍,而且提取光流也需要巨大的计算开销。所以我们提出了 Temporal Difference Network (TDN) 这种结构,尝试通过 Difference 这种简单的操作去强制提取出时序信息中运动的变化,然后补充到正常的 RGB 网络中去,在不增加过多的计算量的前提下去更高效得进行时序建模。

下面简单介绍一下我们的方法和实验结果。

03

具体方法

TDN 的整体结构图

我们的 TDN 是一个 Two-level 的结构,其主要包含短时和长时两个模块——Short-term temporal difference module(S-TDM) 和 Long-term temporal difference module(L-TDM):

S-TDM 和 L-TDM 的网络结构

短时建模(S-TDM):

首先,我们还是参考 TSN 的采样方式,在整个 Video-level 上均匀分段(segment)进行采样。在网络的前一个阶段,我们希望可以在段内融合局部的运动变化信息,所以我们提取原始 RGB 帧间的 difference 作为局部运动变化的一种表征,然后 CNN 去进一步提取这种运动信息,具体公式如下:

长时建模(L-TDM):

相对于之前S-TDM的段内 frame-wise 形式的时序建模,在网络的后一个阶段,我们希望可以对段间的运动变化信息进行增强,去放大运动增强。所以我们参考 TEINet 的形式,设计了一种基于 feature-difference 的通道 attention 增强方法。同时,为了提升最后的效果,我们还增加了multi-scale 和 bidirectional 的结构。这部分的具体公式如下:

04

实验结果

这里我们列出 Kinetics-400 和Something-Something V1和V2上的实验结果,对 TDN 进行分析与验证。

在Something-Something V1上,TDN与其他SOTA方法在计算量和精度上的对比

在Something-Something V1和V2数据集上,TDN与其他方法的比较

在Something-Something V1和V2 这种对时序运动信息敏感的数据集上,TDN 取得了 56.8%(Sth V1) 和 68.2%(Sth V2) 的 Top-1 精度(one-clip, center-crop testing scheme),明显超出了之前的所有方法,取得新的 state-of-the-art。

在Kinetics-400数据集上,TDN与其他SOTA方法进行比较

上表列出了 TDN 在Kinetics-400数据集上与其他SOTA方法进行比较。由于Kinetics是一种 scene-based 的数据集,所以时序上运动信息的变化不如 Something-Something 敏感和重要。但是在计算量较低的条件下,TDN 仍能取得了非常有竞争力的效果,Top-1 精度基本与目前3D-based的方法(SlowFast, X3D)的最好结果持平,同时我们还取得了最高的 Top-5 精度(94.4%) (ten-clip, three-crop testing scheme)。

05

讨论

其实在Kinetics-400数据集上,3D-based 方法采用的 dense 采样的方式,只能关注到整个视频的一小段 clip,而 TDN 参考 TSN 进行全局稀疏的采样,可以进行 video-level 的时序建模。从 one-clip, center-crop 这种单个view 改为 ten-clip, three-crop 这种 30个view 的测试方法,3D-based 方法会有 8-10 个点的提升,TDN 只有 2-3 个点的提升。但反过来,在单个 view 的 testing scheme 下,TDN 结果将会大幅度领先于 3D-based 方法。而这种单个 view 的采样方式能够在极低的计算代价下,取得比较好的结果,在工业界的现实场景下也更加实用和有意义。

06

总结

针对视频数据在时序上的动态特性,我们提出了一种高效的时序差分网络(Temporal Difference Network, TDN),通过 Difference 这种简单的操作,去显式得提取出视频中复杂精细的运动变化,在不增加过多的计算量的前提下去更高效得进行时序建模,并且我们通过实验在各个数据集上证明了 TDN 效果。更多方法中的细节,Ablation study 和实验可视化可以参考我们的论文 :)

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-04-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 微信识图之面向多源异构数据的检测器设计

    ? 作者:breezecheng、morajiang、lyleleeli,腾讯 WXG 应用研究员 微信识图已经在微信的扫一扫识物,微信聊天/朋友圈/公众号...

    腾讯技术工程官方号
  • 解铃还须系铃人!南加大训练AI检测Deepfake“假视频”,准确率超90%

    还记得权力的游戏第八季么? Jon Snow也加入了千万骂编剧的粉丝的阵营,并且因此向粉丝道歉。

    大数据文摘
  • 视频分割在移动端的算法进展综述

    语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签,视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。

    SIGAI学习与实践平台
  • 旷视15篇论文入选ECCV 2020(含目标检测/NAS/人体姿态估计等)

    8月23-28日,全球计算机视觉三大顶会之一,两年一度的 ECCV 2020(欧洲计算机视觉国际会议)即将召开。受到疫情影响,今年的 ECCV 将以线上形式举办...

    Amusi
  • MMOCR来了!OpenMMLab 全流程的文字检测识别理解工具箱

    模块设计:我们使用统一框架和模块化设计实现了各个算法模块。一方面可以尽量实现代码复用,另外一方面,方便大家基于此框架实现新的算法。我们把文字检测,基于分割的文字...

    Amusi
  • CVPR2020 夜间目标检测挑战赛冠军方案解读

    在 CVPR 2020 Workshop 举办的 NightOwls Detection Challenge 中,来自国内团队深兰科技的 DeepBlueAI ...

    小白学视觉
  • 论文解读 Receptive Field Block Net for Accurate and Fast

    Receptive Field Block Net for Accurate and Fast ... 【ECCV 2018】

    SIGAI学习与实践平台
  • CVPR 2021大爆料!录用1663篇,论文ID可能影响录取结果?

    终于!在几千上万人的翘首企盼下,CVPR 2021论文录取结果于1日10点20分左右放出。(如果不幸未中,请赶紧转投ICCV 2021~)

    大数据文摘
  • AAAI 2021论文接收列表放出,IJCAI 2020即将召开!AI顶会最新动态一览!

    https://aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted...

    AI科技评论

扫码关注云+社区

领取腾讯云代金券