首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

CVPR 2021 线上分享 | 2D和3D CNN解决不好视频动作识别,字节跳动等提出更高效的Action模块

近年来,由于视频理解成为实现 VR/AR 以及视频共享社交网络服务等实际应用的关键组件,学术界对该领域的研究越来越感兴趣。每天有数百万个视频上传到 TikTok、抖音和西瓜视频进行处理。但是,视频流的爆炸式增长对执行视频理解所需的高准确率和低计算成本提出了挑战。 作为视频理解的一个基本问题,动作识别在内容审核和推荐等视频相关的应用中被提出了越来越高的要求。随着 VR 等技术的飞速发展,与时序相关的动作识别也成为了近年来的研究热点。 时空性、特征和运动模式是视频动作识别任务的重要组成部分。目前,学界主流方法

02

资源 | 谷歌发布人类动作识别数据集AVA,精确标注多人动作

选自Google Research 机器之心编译 参与:路雪 视频人类动作识别是计算机视觉领域中的一个基础问题,但也具备较大的挑战性。现有的数据集不包含多人不同动作的复杂场景标注数据,今日谷歌发布了精确标注多人动作的数据集——AVA,希望能够帮助开发人类动作识别系统。 教机器理解视频中的人类动作是计算机视觉领域中的一个基础研究问题,对个人视频搜索和发现、运动分析和手势交流等应用十分必要。尽管近几年图像分类和检索领域实现了很大突破,但是识别视频中的人类动作仍然是一个巨大挑战。原因在于动作本质上没有物体那么明

07
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    3DCNN论文阅读

    这篇论文应该是3DCNN的鼻祖,对于视频数据来说,作者认为3D ConvNet非常适合于时空特征学习,这里也就是视频分析任务上。 摘要: 我们提出了一种简单而有效的时空特征学习方法,该方法使用在大规模有监督视频数据集上训练的深层三维卷积网络(3D ConvNets)。我们的发现有三个方面:1)与2D ConvNet相比,3D ConvNet更适合时空特征学习;2)具有小的3×3×3卷积核的同质结构是3D ConvNet中性能最好的结构之一;3)我们学习的特征,即C3D(卷积3D),在4个不同的基准上优于最先进的方法,并在其他2个基准上与当前最好的方法相媲美。此外,特征紧凑:在只有10维的UCF101数据集上达到了52.8%的准确率,而且由于ConvNets的快速推理,计算效率也很高。最后,它们在概念上非常简单,易于培训和使用。

    02
    领券