前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR2022 | 动作识别框架新范式 STRM,用最小的样本获得最高的精度

CVPR2022 | 动作识别框架新范式 STRM,用最小的样本获得最高的精度

作者头像
墨明棋妙27
发布2022-12-29 16:38:36
6810
发布2022-12-29 16:38:36
举报
文章被收录于专栏:19961996
  • 论文题目:Spatio-temporal Relation Modeling for Few-shot Action Recognition
  • 论文连接:https://arxiv.org/abs/2112.05132v2
  • 代码连接:https://github.com/Anirudh257/strm

综述

我们提出了一种few-shot动作识别框架STRM,它在学习高阶时间表示的同时,增强了特定类特征的区分能力。我们的方法的重点是一个新的时空增强模块,它将空间和时间上下文与专用的局部帧级别和全局帧级别特征丰富子模块聚合在一起。局部帧级别的扩展捕获基于外观的动作特征。另一方面,全局帧级扩展明确编码了广泛的时间上下文,从而捕获了随时间推移的相关对象特征。然后,利用得到的时空丰富表示来学习查询和支持动作子序列之间的关系匹配。我们进一步在帧级丰富的特征上引入query类相似性分类器,通过在所提出的框架中的不同阶段加强特征学习来增强特定类特征的可区分性。在四个不同的少样本动作识别数据基准上进行了实验:Kinetics、SSv2、HMDB51和UCF101,我们所提的方法达到最佳水平。

少样本动作识别简介

少镜头(FS)动作识别是一个具有挑战性的计算机视觉问题,其任务是将未标记的视频分类为数据集中具有有限样本的动作类别之一。其识别问题与细粒度动作识别特别相关,因为收集足够多的标记示例是一项挑战。大多数现有的FS动作识别方法通常搜索单个支持视频或支持类视频的平均表示。然而,这些方法仅利用帧级表示,而不显式地利用视频子序列进行时间关系建模。

STRM算法介绍

  • 动机:它致力于增强类特定特征的可辨别性,同时减轻灵活性问题。
  • 特征可辨别性:与仅关注时间关系建模的TRX不同,我们的方法强调了在建模时间关系之前聚合空间和时间上下文以有效丰富视频子序列表示的重要性。学习丰富的空间和时间关系之后的局部表示能够增强特征的可分辨性,从而有效利用可用于FS动作识别的有限样本。
  • 模型灵活性:我们提出的方法学习以较低的基数对高阶关系进行建模,减少了归纳偏差,从而提高了模型的灵活性。

STRM总体框架

Spatio-temporal Enrichment

我们的方法引入时空增强模块,该模块致力于增强(i)单个帧中空间上的局部patches特征;(ii)视频中时间上跨帧的全局帧特征。

视频中空间和时间上下文信息的有效利用使得能够在建模查询和支持视频之间的时间关系之前改进特定于类别的特征可辨别性。

Enriching Local Patch Features

每帧中的patches特征一起对其空间信息进行编码。增强这些特征以编码帧中所有帧级空间上下文,这对于捕捉基于外观的相似性以及动作类之间的差异是必要的。为此,我们引入了一个patches增强(PLE)子模块,该子模块使用自注意力,通过聚合一致的patch上下文,让patch特征关注自己。PLE子模块如下图所示,具体计算公式见原论文。

PLE子模块

Enriching Global Frame Features

上述(PLE)子模块旨在在动作视频的每个帧内局部地聚集空间上下文,这使得能够聚焦于帧中的相关对象。然而,它没有明确地编码时间上下文,因此在遇到随时间推移的物体运动时会产生困难。在这里,我们通过引入包括MLP-mixer层的帧级增强(FLE)子模块,继续在视频内的帧之间全局地增强时间上下文。虽然自注意力是基于样本相关(输入特定)混合,由标记之间的成对相似性引导,但MLP- mixer中的标记混合通过独立于输入的持久关系记忆同化了整个全局感受场。token标识的这种全局同化使得MLP-mixer更适合于丰富全局帧表示。FLE子模块如下图所示。

FLE子模块

Query-class Similarity

因此,我们提出的STRM包括一个时空增强模块和一个中间查询类相似性分类器,增强了特征可分辨性(见下图),并改善了查询与其支持动作类之间的匹配。

不同模块对于结果贡献的影响

实验

模型所用的数据集:Something-SomethingV2(SSv2)、Kinetics、HMDB51和UCF101。

实验对比

不同模块对比的消融实验

增加模块对实验结果的影响

更改SSv2数据集中支持样本的数量时的性能比较

结论

文章提出了一个FS动作识别框架STRM,包括时空增强和时间关系建模(TRM)模块以及查询类相似性分类器。我们的STRM利用了结合局部和全局、样本依赖和样本不可知的增强机制的优势,以增强时空特征,以及增强不同阶段特征的可分类性。因此,这增强了时空特征的可分辨性,并且即使在较低基数表示中也能够学习高阶时间关系。我们的消融实验揭示了几个模块贡献的benefits,从而在所有基准上取得了最先进的结果。在当前工作范围之外,一个可能的未来方向是扩展少数镜头动作识别能力,以在不同领域进行推广。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-12-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉CV 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 综述
  • 少样本动作识别简介
  • STRM算法介绍
  • Spatio-temporal Enrichment
  • Enriching Local Patch Features
  • Enriching Global Frame Features
  • Query-class Similarity
  • 实验
  • 不同模块对比的消融实验
  • 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档