Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >视频的行为识别「建议收藏」

视频的行为识别「建议收藏」

作者头像
全栈程序员站长
发布于 2022-06-27 12:49:14
发布于 2022-06-27 12:49:14
1.6K0
举报

大家好,又见面了,我是你们的朋友全栈君。

1. 概述

使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支:分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法。本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释,并对每一个分支的算法集合总结自己的心得。本文暂不区分行为识别(Activity Recognition)与动作识别(Action Recognition)。

2. 论文详解

2.1 two-stream(双流)方法

2.1.1 two stream

(1). 算法介绍

该篇论文[1]是双流方法的开山之作,论文所提出的网络使用以单帧RGB作为输入的CNN来处理空间维度的信息,使用以多帧密度光流场作为输入的CNN来处理时间维度的信息,并通过多任务训练的方法将两个行为分类的数据集联合起来(UCF101与HMDB),去除过拟合进而获得更好效果。

该篇论文无公开源代码。

(2). 算法架构

1). 算法介绍

该篇论文[2]发现了two stream的两个问题,一是不能在空间和时间特征之间学习像素级的对应关系,二是空域卷积只在单RGB帧上时域卷积只在堆叠的L个时序相邻的光流帧上,时间规模非常有限。导致了不能利用视频中两个非常重要的线索(Cue)来完成动作识别,即从指定的表象(空间线索)位置区域同时看光流(时间线索)有何变化,从而进行行为识别(what is moving where),以及线索是如何随时间展开的。

虽然该论文沿袭了two stream网络架构,但做了如下扩展:

1) 在空域卷积网络进行了3D Conv 融合与3D Pooling;

2) 在时域卷积网络进行了3D Pooling;

3) 用VGG深度模型替换了AlexNet。

该篇论文公开源代码,是基于MatConvNet toolbox实现。

(2). 算法架构

该文章的架构是在最后一个卷积层的ReLU之后将两个网络融合至空域流,并通过3D Conv+3D Pooling转化成时空流,同时不截断时域流,在时域网络上执行3D Pooling。最终两个Loss都用于训练并进行预测。整个网络输入是上下文较长的时间尺度(t + Tτ),但每次处理的只是上下文较短的时间尺度(t±L/2),要注意类似于奈奎斯特准则一样,τ < L导致时域的输入重叠,τ ≥ L时域输入不会重叠。

1.1.3 Towards Good Practices

(1). 算法介绍

该文章[3]主要是列举了最新的几种CNN形式和训练策略,并用caffe实现了two streams,并没有在算法上有创新。

该文章所关注的最优实践有如下五个方面:

1) 时域网络与空域网络的预训练技术;

2) 更小的学习速率;

3) 新的数据集扩容技术;

4) 更高的drop out系数;

5) 多GPU训练技术。

该篇论文公开源代码,基于caffe实现。

2.1.4 TSN

(1). 算法介绍

该篇文章[4]的作者和2.1.3是同一伙人,但本篇论文相比2.1.3在架构上有所创新,作者发现了前人研究成果(尤其是two-stream)只能处理短期运动(short-term),对长期运动(long-range)时间结构进行理解不足,且训练样本较小。于是作者使用了稀疏时间采样策略和基于视频监督的策略,将视频进行时域分割后随机抽取片段,来弥补第一个不足,用交叉预训练、正则化技术和数据扩张技术弥补第二个不足,并将此网络结构命名为时域分割网络(Temporal Segment Network, TSN)。

此文章 Temporal Segment Networks for Action Recognition in Videos 只是在本文章基础上稍作调整。

该篇论文公开源代码,基于caffe实现,以及另一种实现方式,基于pytorch实现。

(2). 算法架构

对一个输入视频V被分为K个segment(S1,S2,…,Sk),并从中随机选择一个片段Tk(snippet),完成了稀疏时间采样,而后继续通过two-stream网络,将所有(k个)空域网络的输出进行类别score的分布统计,对时域网络的输出进行类别score的分布统计,每个segmental consesus的输出结果用均值处理一下,最后用softmax函数得出概率最高的类别。

2.1.5 3D ResNet

(1). 算法介绍

该篇文章的作者同2.1.2。由于ResNet在图像识别领域中的出色表现,引起了视频识别研究者的关注,作者最先将其在时域上进行了扩展,并延续了Fusion网络的特色,一定要找到时域空域的像素级对应关系。在双流网络中,时域网络和空域网络也有residual connection并进行参数的传递,最终得出比较优异的结果。其实每一个网络都能学习到时空特征,所以不再称为空域网络和时域网络,而改称为场景网络(appearance)和运动网络(motion)。该网络整体命名为时空残差网络,即STResNet。

该篇论文公开源代码,基于MatConvNet toolbox实现。

(2). 算法架构

CNN-LSTM方法

2.2.1 LRCN

(1). 算法介绍

作者认识到对于视频的分析处理关键在于对时序特征的学习和理解,且网络输入输出都应该是变长的才符合世界上的真实场景。在深度学习中能够良好表达序列化特征的网络架构就是RNN网络,其中表现最好的实现形式即是RNN的LSTM,故将LSTM与CNN相结合能够将空间特征与时间特征更完整的进行学习,从而实现”deep in time”。作者面向的有三种场景:行为识别、图像标注与视频描述,分别对应的输入输出情况是变长->定长,定长->变长,变长->变长,并将此网络命名为长期循环卷积神经网络(Long-term Recurrent Convolution,简称LRCN)。

该篇论文公开源代码,基于caffe实现,并有基于torch实现的版本

(2). 算法架构

2.2.2 Beyond Short Snippets

(1). 算法介绍

作者认识到”CNN+多图像识别+平均预测”的方法所获取的信息是不完整的,在某些需要细粒度区分的场景中很容易混淆类别,学习视频时间演进的全局描述才是准确视频分类的重中之重,作者提出了一个新的CNN架构,并认为该架构能够表达全局视频级别的描述符,在该架构的实现细节上采用了时域共享参数以及光流的方法,实现了视频分类任务上的优秀表现。

(2). 算法架构

作者提出了两个处理时间的架构,一个是特征池化,即通过不同位置的池化层结构进行特征融合,一个是LSTM+softmax。

2.2.3 Unsupervised + LSTM

(1). 算法介绍

该篇文章[3]作者认识到视频需要更高维度的特征去表达,从而需要收集更多带标签的数据并进行大量的特征工程工作,其中一个解决思路是引入非监督学习去发现、表达视频结构可以节省给数据打标签的繁琐工作。作者通过类似于LSTM+Autoencoder的组合来对视频特征进行无监督学习,并验证不同模型的表现以及学习到的参数对有监督学习的参数进行初始化是否有益。

该篇论文公开源代码基于cudamat实现。

(2). 算法架构

作者提出两种LSTM模型,分别称为自编码器模型与预测模型,前者是帧序列输入至LSTM Encoder,再将LSTM Encoder所学习到的表征向量(目标、背景、运动信息)拷贝至LSTM Decoder,目标序列是与输入相同的序列,即对图像进行重建;后者的处理过程也基本相同,只是将目标序列设定为未来的帧,即对图像进行预测,这两种模型都可以无条件约束或有条件约束,对有条件约束来说其约束条件是对Decoder输入上一个处理完毕的帧。

2.3 C3D方法

2.3.1 C3D

(1). 算法介绍

该篇文章为3D卷积网络的开篇之作,显而易见3D卷积比2D卷积多了时间维度的学习,对视频描述分类会更好。作者提出一个有效的视频描述子需要具有通用、全面、高效和易于实现四个特点,而本文正是用实验验证了3D卷积深度网络正是这样的描述子,卷积核是3x3x3特征提取效果最好,且使用简单的线性模型就可以在6个不同的benchmarks上取得比较好的成绩。

本文公开的源代码基于caffe实现,并有tensorflow实现版本

(2). 算法架构

视频输入是C×L×H×W,C为图像通道(一般为3),L为视频序列的长度,kernel size为3x3x3,stride为1,padding=True,滤波器个数为K的3D卷积后,输出的视频大小为K∗L∗H∗W。

2.3.2 P3D

(1). 算法介绍

为了同时考虑空间时间的维度特征,从2D到3D利用图像识别技术处理视频识别问题,是一个常见的联想,所以基本思路都是从2D的CNN中成熟的网络结构向时域上拓展,如AlexNet,GoogLeNet、NetInNet、VGG和ResNet等等。本篇文章[2]的作者从另外一个角度,在这些成熟CNN网络之间的差异中寻找更能学习及表达特征的卷积核在设计上有什么演进,作者从inceptopn v3中获得灵感,既然1×3、3×1的2D卷积核可以替代3×3的卷积核并且计算量更小表现更优,那么1x3x3和3x1x1的3D卷积核说不定也能有出色表现。于是作者设计了所谓的伪3D网络,把3D卷积核拆成了空间的2D卷积(前文的1x3x3)和时间的1D卷积(前文的3x1x1)以及不同的串并联关系验证了其猜测的正确性。

本文公开的源代码基于caffe实现,并有基于pytorch的实现版本

(2). 算法架构

2.3.3 T3D

(1). 算法介绍

该文章的作者发现之前3D-CNN最主要的缺点在于对长时时域信息没有充分挖掘,而主要问题在于网络参数多、需要大规模标注的数据集并依赖于光流,尤其是针对Sports-1M这样的数据集,计算量特别大。从两个方面可以规避这种问题:1)不使用光流作者为了捕捉短时、中时、长时视频,动态表达高层语义,创新了新的时域3D卷积核,并新增了时域变换层TTL来替换pooling层。整个网络命名为T3D,且为端到端训练网络。此外作者认为还有两处独特的贡献,一是在Sports-1M庞大数据集上以Scratch训练出了一个3D-CNN网络,二是可以使用有监督迁移学习的进行2D-CNN向3D-CNN的初始化,避免从Scratch初始化。

本论文源代码基于pytorch实现。

(2). 算法架构

T3D网络架构如下图所示:

TTL特点如下:

1) 专门设计成时域特征提取层,有不同时域深度,不同于3D同质的卷积深度;

2) 2Dfilter和pooling参考了DenseNet的架构,扩展成了DenseNet3D,所以TTL基本上是C3D、NetworkInNetwork、DenseNet架构的综合体;

3) TTL是稠密传播(densely propagated)的,在T3D上是端到端可训练的。

2.3.4 R3D

(1). 算法介绍

该文章作者即是C3D算法的创始人,这是R(2+1)D算法的先导文章,结合之前C3D和之后R(2+1)D可见作者思维推断的演进过程。从图像识别算法的演进过程来看,视频识别用的卷积核也会是ResNet。作者在本文做了一个非常琐屑但很有意义的对比,即看不同输入帧数、输入帧间隔、层数、分辨率、第一层卷积核感受野大小对准确率有什么影响。作者指出了当前视频识别面临的三大问题:1)计算量消耗较大、内存消耗较大,Sports-1M数据集进行训练需要2个月,而UCF101也需要3-4天;2) 没有一个标准基线,图像识别的基线是ImageNet,视频基线如果用Sports-1M太大了,UCF101与ImageNet帧数相同,但又太小,容易过拟合;3) 视频分类模型的设计尤为重要,即如何对输入进行采样,如何预处理,哪种类型卷积核,卷积层设置成多少,如何对时域进行建模等等,可以确定好网络容量(参数数量),从架构中某一项的变化看哪些因素能够提升准确率。作者认为自己的贡献有四点:1) UCF101多种参数维度进行训练,并主观观察每一维度的灵敏度得出结论;2) 在Sports-1M数据集上用deep3D残差进行训练;3) R3D更优于其他时空表达方式;4) 新的模型速度快2倍,参数数量是原来的1/2。 本文公开的源代码基于caffe实现。

(2). 算法架构

网络架构与C3D一文中架构相同。其中2.5D和3D的卷积核有所不同,如下图所示:

2.3.5 R(2+1)D

(1). 算法介绍

本篇文章是C3D创始人(T. Du)与CNN发明人(Y.Lecun)共同创作的。作为C3D的算法创始人,在钻研了各个门派的行为识别算法后,对时空卷积又有了新的认知和感悟,首先他发现截止当前最好的基于深度学习的行为识别算法还是与最优的传统手工特征提取方法(iDT)差距不是那么明显,其次2DCNN的ResNet已经非常接近3DCNN的准确率了,且前者的参数数量只有后者的三分之一,由此带来的深层次思考即是时域信息的学习是不是行为识别的必要条件呢,说不定行为识别所需要的计算机视觉评判分类的依赖已经在各个视频帧中得以体现了。于是作者提出了两个方案,一个是介于2D和3D之间的卷积方法MC混合卷积,即接近输入端的浅层次用3D卷积进行训练,深层次用2D卷积进行训练;一个是R(2+1)D,即将2D的空间卷积与1D的时间卷积分离开来,且都使用卷积网络中的残差卷积网络来进行学习,第二个方法几乎和P3D差不多,但作者的贡献在于调整了参数数量,使得R(2+1)D和R3D输出数量保持一致。R(2+1)D有两个优点,一是虽然网络参数个数同R3D相同,但非线性单元是后者的两倍,更能表征更复杂的函数;而是将时空分解开优化更加容易,可以获得更低的training error和testing error。

本文公开的源代码基于pytorch实现。

(2). 算法架构

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/133102.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年6月9,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
3D卷积入门 | 多论文笔记 | R2D C3D P3D MCx R(2+1)D
看到这篇论文是因为之前看到一篇Nature上的某一篇医疗影像的论文中用到了这几个算法,R3D,MC3和R2+1D的3D卷积的算法。因为对3D卷积的算法了解比较局限,所以开始补一补这方面的算法。
机器学习炼丹术
2020/12/02
2.5K0
行为识别综述
行为识别:行为识别(Action Recognition) 任务是从视频剪辑(2D帧序列)中识别不同的动作,其中动作可以在视频的整个持续时间内执行或不执行。行为识别似乎是图像分类任务到多个帧的扩展,然后聚合来自每帧的预测。尽管图像分类取得了很大的成功,但是视频分类和表示学习依然进展缓慢。
全栈程序员站长
2022/08/31
2.4K0
行为识别综述
ActivityNet Kinetics夺冠 | PaddlePaddle视频联合时空建模方法开源
百度视觉技术部联合PaddlePaddle团队近期开源了用于视频分类的StNet框架。StNet框架为ActivityNetKinetics Challenge 2018中夺冠的网络框架。本次开源了基于ResNet50实现的StNet模型。该模型提出“super-image"的概念,在super-image上进行2D卷积,建模视频中局部时空相关性。另外通过temporal modeling block建模视频的全局时空依赖,最后用一个temporalXception block对抽取的特征序列进行长时序建模。该框架在动作识别方面优于一些最先进的方法,可以在识别精度和模型复杂性之间取得令人满意的平衡。
用户1386409
2019/06/10
1.3K0
ActivityNet Kinetics夺冠 | PaddlePaddle视频联合时空建模方法开源
基于Deep Learning 的视频识别技术「建议收藏」
深度学习在最近十来年特别火,几乎是带动AI浪潮的最大贡献者。互联网视频在最近几年也特别火,短视频、视频直播等各种新型UGC模式牢牢抓住了用户的消费心里,成为互联网吸金的又一利器。当这两个火碰在一起,会产生什么样的化学反应呢?
全栈程序员站长
2022/09/01
1.8K0
工厂人员违规行为识别
工厂人员违规行为识别系统借助视频监控ai分析技术+计算机视觉学习技术,人员违规行为识别系统利用现场已有监控摄像头,对车间园区人员擅自离岗、玩手机、区域入侵、吸烟、劳保服不佩戴等个人行为实时检测分析,当系统识别到人员违规行为立即抓拍提醒,违规截图和视频保存到数据库系统生成表,推到后台人员妥善处理,及时纠正不符合操作规范的行为。
燧机科技SuiJi
2022/11/21
6690
工厂人员违规行为识别
​MMIT冠军方案 | 用于行为识别的时间交错网络,商汤公开视频理解代码库
本文将介绍一种用于行为识别的时间交错网络(TIN temporal interlacing network)。该网络想较当前SOTA的基础上,在实现6倍加速的同时,还多个评测数据集上获得了4%的提升。同时该方法作为主力方法,在2019年的ICCV Multi Moments In Time challenge中取得了冠军(Leaderboard)。我们还release了一个基于PyTorch的开源动作识别代码库X-Temporal,希望可以进一步推动动作识别社区的发展。
AI科技大本营
2020/04/15
1K1
​MMIT冠军方案 | 用于行为识别的时间交错网络,商汤公开视频理解代码库
基于深度学习的人类行为识别算法研究
本文为稀土掘金技术社区首发签约文章,30天内禁止转载,30天后未获授权禁止转载,侵权必究!
是Dream呀
2025/03/15
930
基于深度学习的人类行为识别算法研究
动作识别调研
动作识别的主要目标是判断一段视频中人的行为的类别,所以也可以叫做 Human Action Recognition。
全栈程序员站长
2022/09/20
9520
动作识别调研
视频行为识别检测综述 IDT TSN CNN-LSTM C3D CDC R-C3D
CVPR 2014 Tutorial on Emerging Topics in Human Activity Recognition
全栈程序员站长
2022/08/31
3.8K0
视频行为识别检测综述 IDT TSN CNN-LSTM C3D CDC R-C3D
【技术综述】视频分类/行为识别研究综述,从数据集到方法
视频分类/行为识别是计算机视觉领域中非常有挑战性的课题,因为其不仅仅要分析目标体的空间信息,还要分析时间维度上的信息,如何更好的提取出空间-时间特征是问题的关键。本文总结了该领域的技术进展和相关数据集,技术进展从传统特征法到深度学习中的3DCNN,LSTM,Two-Stream等。
用户1508658
2019/08/26
2K0
【技术综述】视频分类/行为识别研究综述,从数据集到方法
学界 | ECCV 2018 行为识别论文笔记之多纤维网络
AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,未经许可不得转载。
AI科技评论
2018/10/25
1.3K0
学界 | ECCV 2018 行为识别论文笔记之多纤维网络
视频识别的基础概念[通俗易懂]
iDT算法框架主要包括:密集采样特征点,特征轨迹跟踪和基于轨迹的特征提取三个部分。 光流:在时间间隔很小的情况下,视频像素位移 特征提取:通过网格划分的方式在多尺度图像中分别密集采样特征点。通过计算特征点临域内的光流中值得到特征点运动方向。
全栈程序员站长
2022/08/11
1.6K0
视频识别的基础概念[通俗易懂]
论文阅读:A Closer Look at Spatiotemporal Convolutions for Action Recognition
这篇论文是CVPR2018年的录取论文,主要讨论了时空卷积的几种网络结构,在Action Recognition 的几个标准数据集上也取得了媲美最好方法的效果。作者是FAIR的工作人员,其中包括Du Tran(C3D)作者,Heng Wang(iDT)作者和Yann LecCun等,可谓是大牛云集。论文可以在这里下载。这里大概介绍下论文中的内容,可以看作是原论文的一个翻译。
王云峰
2019/12/25
1.6K0
论文阅读:A Closer Look at Spatiotemporal Convolutions for Action Recognition
【干货】计算机视觉视频理解领域的经典方法和最新成果
---- 新智元专栏 作者:张皓(南京大学) 【新智元导读】相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。 相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。视频理解可以用于多个领域,例如在智能安防领域中可以取代人工来对监控视频进行分析。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。 常用数据集 视频分类主要有两种数据集,剪辑过(trimmed)
新智元
2018/05/30
3.8K0
腾讯多媒体实验室参会IJCAI2019并做论文报告
2019年人工智能领域国际顶级学术会议IJCAI(CCF-A类推荐会议)于8月16日在中国澳门威尼斯人酒店正式落下帷幕。腾讯多媒体实验室携录取论文参加会议,本文将从会议总览、论文解读等方面介绍本次会议。 一、IJCAI2019论文数据总览 本次会议空前地吸引了全世界超过3000位研究人员注册和参会。根据会议组织方的统计,本次会议有效投稿量达到创该会议投稿记录的4752篇,以17.8%的接受率录用了850篇,涉及人工智能的各个研究方向,如强化学习、传统机器学习与数据挖掘、深度学习的理论与应用等等。
腾讯多媒体实验室
2019/08/23
8990
腾讯多媒体实验室参会IJCAI2019并做论文报告
手机实时人工智能之「三维动作识别」:每帧只需9ms
本文提出了一种用于三维卷积神经网络(3D CNN)的模型压缩和移动加速框架 RT3D,通过结合神经网络权重剪枝和编译器代码优化技术,使模型的端到端运行时间与目前支持 3D CNN 的移动框架相比速度提升高达 29.1 倍,准确性损失仅为 1%~1.5%。当在手机上采用 C3D 或 R(2+1)D 模型时,可以在 150ms 内完成 16 帧视频的计算。该工作由 CoCoPIE 团队:美国东北大学(Northeastern University)的王言治研究组、威廉与玛丽学院(William & Mary)的任彬研究组以及北卡罗来纳州立大学(North Carolina State University)的慎熙鹏研究组共同完成,发表于第 35 届美国人工智能协会年会(AAAI 2021)。
OpenCV学堂
2021/03/12
5280
手机实时人工智能之「三维动作识别」:每帧只需9ms
国防科大提出基于可变形三维卷积(D3Dnet)的视频超分辨,代码已开源
视频是具有时间连续性的图像集合,其中每帧图像的上下文信息(空域信息)与不同帧之间的互补信息(时域信息)都有助于提升视频超分辨的性能。
CV君
2020/08/10
1.1K0
视频行为识别(一)——综述
本次分享的文章是2023年收录在计算机视觉领域的顶刊“CVPR”(级别:视觉类TOP)期刊上。该期刊详细信息可关注公众号 AI八倍镜 点击菜单项查询。 论文地址:https://arxiv.org/abs/2305.15692
卡伊德
2023/07/21
1.5K0
视频行为识别(一)——综述
3D卷积简介
注:本文首发在微信公众号-极市平台。如需转载,请联系微信Extreme-Vision
DoubleV
2018/09/12
6.5K0
3D卷积简介
【AIDL专栏】乔宇: 面向复杂行为理解的深度学习模型及应用(附PPT下载)
“人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者,预期转行AI领域的爱好者均具有重要的意义。2018年AIDL活动正在筹备,敬请关注公众号获取最新消息。
马上科普尚尚
2020/05/14
1.1K0
【AIDL专栏】乔宇: 面向复杂行为理解的深度学习模型及应用(附PPT下载)
推荐阅读
相关推荐
3D卷积入门 | 多论文笔记 | R2D C3D P3D MCx R(2+1)D
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档