前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R-C3D 视频活动检测的经典算法

R-C3D 视频活动检测的经典算法

原创
作者头像
CV派
修改2019-09-17 10:41:44
9450
修改2019-09-17 10:41:44
举报
文章被收录于专栏:Paper阅读
l论文信息
l论文信息

主要贡献

1)论文提出了活动检测模型,即R-C3D,这是一种端到端活动检测模型,结合活动建议和分类阶段,可以检测任意长度的活动。

2)通过在建议生成(proposal generation)和网络分类部分之间共享全卷积的C3D特性,实现快速检测速度(比当前方法快5倍);

3)对三个不同的活动检测数据集进行了大量的评估,证实了该文提出的模型具有普遍适用性。

存在问题

连续视频中的活动检测是一个具有挑战性的问题,不仅需要识别,还需要及时准确地定位活动。当前存在的方法在处理连续视频流的活动检测时,存在以下问题:

1)这些现成的表示可能不适合在不同视频域中进行定位活动,从而导致性能的地下。

2)现有方法依赖外部建议或全面的滑动窗口,导致计算效率地下。

3)滑动窗口无法轻松的预测灵活的活动边界。

基本思想

受目标检测方法FasterR-CNN的启发,论文中提出了一种区域卷积3D网络(RegionConvolutional 3D Network,R-C3D)如上图,该方法先进行3D全卷积网络对视频帧进行编码处理,之后提取活动时序片段(actionproposal segments),最后在分类子网络(action classificationsubnet)并对结果进行分类和细化。

论文细节

该网络可以用于连续视频流中进行活动检测。其网络结构图如下,由3各部分组成,共享的3D ConvNet特征提取器,时间建议阶段(temporalproposal stage)以及活动分类和细化阶段。

模型架构
模型架构

为了实现高效的计算和端到端训练,建议和分类子网共享C3D特征映射。这里的一个关键创新是将Faster R-CNN中的2D RoI pooling扩展到3D RoI pooling,这样做的好处就是,该文的模型能够提取各种分辨率的可变长度建议框的特征。

论文中通过共同优化两个子网的分类和回归任务来训练网络,Softmax损失函数用于分类,平滑L1损失函数用于回归,所以本文的目标函数结合两部分损失函数为:

上式中N_{cls}N_{reg}分别代表批量大小和anchor/proposal段的数量,\lambda为损失权值参数,设置为1,t_i=\{\delta \hat{c}_i, \delta \hat{l}_i\}表示anchor或proposals的预测相对偏移量,t_{i}^{*}=\{\delta c_i,\delta l_i\}表示anchor或proposals的ground truth的坐标变换。其变换如下:

实验结果

Experimentson THUMOS'14

表1
表1

Table1是在THUMOS'14上的活动检测结果。在表1中作者在IoU阈值0.1~0.5(表示为a)上对当前存在的方法和R-C3D进行活动检测性能的评估比较。在单向缓冲设置(one-way buffer)的R-C3D,其mAP@0.5为27.0%比当前最先进方法高3.7%。双向缓冲设置(two-waybuffer)的R-C3D的mAP在所有IoU阈值下都有了提高,其中mAP@0.5达到28.9%。

表2
表2

Table2展示了R-C3D与其他方法在数据集THUMOS'14上的每一类的AP(Average Precision)。表中可以看出R-C3D在大多数类别中的AP优于其他方法,在一些活动中甚至超过了20%,比如Basketball Dunk, Cliff Diving等。图(a)显示了在数据集THUMOS'14上的两个视频的定性结果。

THUMOS'14
THUMOS'14

Experimentson ActivityNet

表3
表3

表3是在数据集ActivityNet上的检测结果。表3.活动网上的检测结果,以mAP@0.5(百分比)表示。 从表中可以看出,R-C3D方法在验证集和测试集上分别优于UPC4.3%和4.5%(在mAP@0.5下)。当训练集和验证集都用来训练时,R-C3D方法的检测结果要比只用训练集训练时高1.6%。

图(b)展示了R-C3D在数据集ActivityNet中具有代表性的结果。

ActivityNet
ActivityNet

Experimentson Charades

表4是关于在数据集Charades上的活动检测结果。如表4所示,该文的模型优于文献25中提出的异步时域模型以及在该文章中报告的不同基准线。

表4
表4

按照标准做法,论文中按照mAP@0.5评估了模型,结果为9.3%,性能与在其他数据集中测试的性能结果不同。这个原因可能是数据集Charades固有的问题,比如室内场景光照强度低,或者数据的标签过多等。

图(c)展示了R-C3D在数据集Charades中具有代表性的结果。

Charades
Charades

结论

引入了R-C3D模型,用来活动检测的第一个端对端时间建议分类网络;

在3个大规模的数据集中对该文提出的方法进行了评估,结果展示该文的方法比当前基于3D卷积的模型更快且更准确;

R-C3D还可以假如其他一些特性,以进一步提高活动检测结果。

论文地址:https://arxiv.org/pdf/1703.07814.pdf

代码地址:http://ai.bu.edu/r-c3d/

注:本篇解读文章是作者RoseVam发表于我爱计算机视觉

更多论文分享,请关注公众号
更多论文分享,请关注公众号

https://ask.qcloudimg.com/draft/6237381/9nwm8gyafp.png?imageView2/2/w/1620

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档