首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

NeurIPS 2021 | 视频分类鲁棒性新基准

所以我们选择视频识别作为视频分析领域的突破口,自然而然地提出几个研究问题: 1)现在的视频分类模型大量使用时序信息,是否对模型鲁棒性有帮助?...针对以上几个问题,新加坡南洋理工大学ROSE实验室提出视频分类(Video Classification)鲁棒性的新基准。...在使用我们设计的基准评价最新发表的基于CNN和Transformer的视频分类模型后,我们发现了几个趋势: 1)基于Transformer的模型比基于CNN的视频分类模型更鲁棒 2)模型的鲁棒性和泛化性正相关...这个结果和单个图像任务中的趋势不一致,也给了我们研究和创造视频分类中数据增强方法提供了考研。 ▊ 4....结语 我们这篇论文提出了视频分类鲁棒性的新基准,并且对模型的设计和训练提出一些经验性的分析和指引。

33020
您找到你想要的搜索结果了吗?
是的
没有找到

视频分类进化:从 LR 到 LSTM

为了跟上这波趋势,我使用深度学习中的LSTM网络对短视频分类进行了尝试,并与目前使用的传统分类方法(LR)进行对比,的确取得了更好的效果。...短视频分类任务介绍 对我们浏览器来说,短视频内容都是合作方提供,拿不到视频内容,只有视频链接和视频标题。所以如果想通过机器学习的方法对短视频进行分类,能拿到的信息只有视频的标题。...幸运的是,短视频基本都是标题党,标题基本也包含了视频内的主要信息,如下图所示: 图1 我们的短视频分类任务包括两部分: (1)从上报的所有视频站点标题里识别出短视频,这是一个二分类的问题。...因此对短视频分类来说,由于特征是高维稀疏的,所以是一个偏线性的模型。在异乡文献中对文本分类的实践也一般都是简单模型反而能取得比较好的效果。...总结 从短视频分类的实践中,可以看到LSTM在文本分类中的确能取得比传统分类模型更好的效果。虽然在应用中的LSTM网络的深度都不太深(只有1层隐层),但是取得的效果也已经非常不错。

6.8K11

视频分类哪家强?高效NeXtVLAD在飞桨!

读者在后台留言想要了解更多视频分类相关的技术,看来视频分类问题真的很热门,使用深度学习的方法大规模进行视频分类逐渐成为了趋势。...除了TSM之外,目前深度学习领域还有一系列优秀的视频分类模型,我们会慢慢为大家介绍。今天,我们将为大家介绍由飞桨官方复现并开源的另一个重要模型:NeXtVLAD。 1....视频分类概述 视频分类是指给定一个视频片段,对其中包含的内容进行分类。...视频分类任务中,又以视频动作分类最为热门(如做蛋糕,打篮球,亲吻,喝酒,哭泣)等(详见下节数据集介绍),毕竟动作本身就包含“动”态的因素,不是“静“态的图像所能描述的,因此也是最体现视频分类功底的。...NeXtVLAD模型提供了一种将帧级别的视频特征转化并压缩成特征向量,以适用于任意数目帧输入的视频分类方法。

2.1K40

深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制

深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制 1.时间偏移模块(TSM) 视频流的爆炸性增长为以高精度和低成本执行视频理解任务带来了挑战...TimeSformer是Facebook AI于2021年提出的无卷积视频分类方法,该方法使用ViT网络结构作为backbone,提出时空自注意力机制,以此代替了传统的卷积网络。...TimeSformer在多个行为识别基准测试中达到了SOTA效果,其中包括TimeSformer-L在Kinetics-400上达到了80.7的准确率,超过了经典的基于CNN的视频分类模型TSN、TSM...实验发现,单一维度的自注意力(只有时间维度或空间维度的自注意力)(S)相比于时空注意力模块(ST)极大的减小了计算量,但只采取单一的时间或空间维度进行自注意力计算,对于视频分类任务来说,势必会极大的影响模型的分类精度

43100

【每周CV论文推荐】初学视频分类与行为识别有哪些值得阅读的论文?

视频分类和行为识别在视频监控与检索、网络直播、推荐系统等行业中有着广泛的应用,是深度学习在视频分析领域中最底层的问题之一,非常值得关注和学习。...模型来进行视频分类,这与深度卷积神经网络模型的发展时间脉络基本重合。...,视频分类数据集的规模随着时间推移也越来越大,其中适合新手朋友们学习使用的有HMDB-51,UCF-101,Kinetics Datasets。...,我们推出了相关的专栏课程《深度学习之视频分类与行为识别:理论实践篇》,感兴趣可以进一步阅读: 【视频课】CV必学,超8小时,3大模块,3大案例,循序渐进地搞懂视频分类与行为识别!...总结 本次我们简单介绍了视频分类与行为识别的一些重要内容,这是从事视频分析方向必须掌握的内容,值得所有从业者掌握。 有三AI冬季划-项目实战组

54110

硬货 | 手把手带你构建视频分类模型(附Python演练))

译者 | VK 来源 | Analytics Vidhya 概述 了解如何使用计算机视觉和深度学习技术处理视频数据 我们将在Python中构建自己的视频分类模型 这是一个非常实用的视频分类教程,所以准备好...我们将在本视频分类教程中介绍的内容 视频分类概述 构建视频分类模型的步骤 探索视频分类数据集 训练视频分类模型 评估视频分类模型 视频分类概述 你会如何定义视频?...构建视频分类模型的步骤 建立一个能够将视频分类到各自类别的模型很兴奋吧!...训练视频分类模型 现在是时候训练我们的视频分类模型了!我确信这是本教程中最受期待的部分。...因此,在下一节中,我们将看到此模型在视频分类任务中的表现如何! 评估视频分类模型 让我们打开一个新的Jupyter Notebook来评估模型。

4.9K20

【技术综述】视频分类行为识别研究综述,从数据集到方法

视频分类/行为识别是计算机视觉领域中非常有挑战性的课题,因为其不仅仅要分析目标体的空间信息,还要分析时间维度上的信息,如何更好的提取出空间-时间特征是问题的关键。...1 视频分类/行为识别问题 ? 首先我们要明确这是一个什么问题,基于视频的行为识别包括两个主要问题,即行为定位和行为识别。行为定位即找到有行为的视频片段,与2D图像的目标定位任务相似。...本文聚焦的是行为识别,即对整个视频输入序列进行视频分类,一般都是经过裁剪后的视频切片。接下来从数据集的发展,传统方法,深度学习方法几个方向进行总结。...2 视频分类/行为分析重要数据集 深度学习任务的提升往往伴随着数据集的发展,视频分类/行为识别相关的数据集非常多,这里先给大家介绍在论文评测中最常见的3个数据集。...各个类别的分布如上,相对还是比较均匀的,UCF-101是视频分类/行为识别方法必须评测的标准。 2.3 Kinetics-700 dataset ?

1.8K40

解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑

为了让大家深入了解这些AI技术在产业中的应用,降低AI落地门槛,百度飞桨、百度智能云、大连理工大学刘胜蓝副教授联合推出产业实践范例,在花样滑冰动作识别、多模态体育视频分类、足球视频精彩片段剪辑三个经典场景...2、多模态体育视频分类 近日,各类冰雪运动视频受到人们的广泛关注。为了提炼出用户真实的兴趣点和高层次语义信息,企业需要对视频所带文本、音频、图像多模态数据多角度理解。...场景难点 视频标签具有高层语义特点,单模态特征难以表达,高质量视频分类数据有限,对应的图像、音频、文本高语义特征提取困难; 不同模态之间存在语义鸿沟,模态之间交互存在挑战,不同模态可能存在互相干扰情况;

66520

百度PaddlePaddle开源视频分类模型Attention Cluster,曾夺挑战赛冠军

机器之心发布 百度PaddlePaddle 百度深度学习框架 PaddlePaddle 最近开源了用于视频分类的 Attention Cluster 模型。...该模型通过带 Shifting operation 的 Attention clusters,处理经过 CNN 模型抽取特征的视频的 RGB、光流、音频等数据,实现视频分类。...Attention Cluster 模型 视频分类问题在视频标签、监控、自动驾驶等领域有着广泛的应用,但它同时也是计算机视觉领域面临的一项重要挑战之一。...目前的视频分类问题大多是基于 CNN 或者 RNN 网络实现的。众所周知,CNN 在图像领域已经发挥了重大作用。它具有很好的特征提取能力,通过卷积层和池化层,可以在图像的不同区域提取特征。

97040

飞桨视频理解黑科技开源,支持3000个实用标签

之所以APP可以如此懂我,揭开其神秘面纱,得益于人工智能的视频分类技术。高效的视频分类技术让信息的分发更快地触及目标人群,让APP变得更有温度。 面对海量的视频数据, 如何推荐用户感兴趣的视频?...互联网视频分类任务的目标是理解视频的语义,并给视频打上标签,标签包括不限于美食、旅游、影视/游戏等等。标签越精细、在视频分发和推荐时,准确率越高。...对于视频分类任务而言,网络上虽然有大量用户上传的视频数据,但它们大多缺少类别标签,无法直接用于模型训练。...等,在测试集上达到90%的精度;具备良好的泛化能力,非常适用于国内大规模(千万/亿/十亿级别)短视频分类场景的应用。...可以说,这些标签足够达到我们日常小视频分类的要求,能够很好的处理我们需要的场景。

1K30

视频智能生产及内容分析应用工具开源了!​

视频分类打标签方案 (多模态&大规模) 多模态视频分类标签模型 MultimodalVideoTag MultimodalVideoTag基于真实短视频业务数据,融合视频文本、图像、音频三种模态进行视频多模标签分类...图1.1多模态视频分类标签框架 模型使用三个分支抽取各个模态特征,再进行多模态特征融合,最后进行多标签分类。...图1.3多模态视频分类标签 MultimodalVideoTag效果展示 大规模视频分类模型VideoTag VideoTag基于百度短视频业务千万级数据,支持3000个源于产业实践的实用标签,具有良好的泛化能力...,非常适用于国内大规模(千万/亿/十亿级别)短视频分类场景的应用,标签准确率达到89%。...预测结果:融合多个模型结果实现视频分类,进一步提高分类准确率。

2.2K10
领券