前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[CVPR 2022 | 论文简读] 用于动作检测的多尺度时间ConvTransformer

[CVPR 2022 | 论文简读] 用于动作检测的多尺度时间ConvTransformer

作者头像
智能生信
发布2022-12-29 16:55:35
4160
发布2022-12-29 16:55:35
举报
文章被收录于专栏:智能生信

作者 | 汪逢生 编辑 | 赵晏浠

论文题目

MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection

摘要

动作检测是一项重要且具有挑战性的任务,尤其是在标记密集的未剪辑视频数据集中。这些数据由复杂的时间关系组成,包括复合或共同发生的动作。要在这些复杂的环境中检测动作,有效地捕获短期和长期时间信息至关重要。为此,作者提出了一种用于动作检测的新型“ConvTransformer”网络:MS-TCT。该网络由三个主要组件组成:时间编码器模块,它以多个时间分辨率探索全局和局部时间关系;时间尺度混合器模块,它有效地融合多尺度特征,创建统一的特征表示;分类模块,它在时间上学习每个动作实例的中心相对位置,并预测帧级分类分数。作者在多个具有挑战性的数据集(如Charades、TSU和MultiTHUMOS)上的实验结果验证了所提方法的有效性,该方法在所有三个数据集上都优于最先进的方法。

论文链接

https://arxiv.org/abs/2112.03902

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档