前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【知识星球】视频分类/行为识别网络和数据集上新

【知识星球】视频分类/行为识别网络和数据集上新

作者头像
用户1508658
发布2019-07-26 22:35:21
5910
发布2019-07-26 22:35:21
举报
文章被收录于专栏:有三AI有三AI

欢迎大家来到《知识星球》专栏,这两天有三AI知识星球专注更新3D卷积和视频分类/行为识别相关的网络以及相关数据集的介绍和下载。

作者&编辑 | 言有三

有三AI知识星球-网络结构1000变

Two-stream(Spatial+Temporal)

Two-stream是一个非常经典的网络,可以被用于分类,检索,跟踪等任务,这里的Two-stream网络包含了时间和空间网络,分别用于提取RGB的空间信息和光流时间信息。

作者/编辑 言有三

网络结构如上,包含两个通道,第一个通道为spatial stream convNet通道,输入单帧RGB图,用于提取空间信息,是一个2D网络。

第二个通道为temporal stream convnet,输入若干帧光流图,用于提取时间信息,是一个3D网络。光流包括x和y两个方向,所以对于大小为 w, h, 帧长为L的视频片段,temporal stream convnet的输入形状为:( w,h,2L ),下图展示了相邻两幅图的光流图:

两个网络的具体细节在上图已经有所展示,不再详述,下面看下具体的表现:

上表分别是只使用空间网络和只使用时间网络的结果,结果表明空间网络过拟合很严重,时间网络性能远超空间网络,说明运动信息更加重要。另外从5~10增加帧数有微小性能提升,所以最终使用的帧数是10。

下面再来看Two-stream网络,结果融合方法是两个网络的softmax输出的平均或者多类别linear SVM。

结果可以看出,相对于单个网络,有较大的性能提升,其中多类别linear SVM的融合方法比直接平均法更好。

参考资料:

[1] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in neural information processing systems. 2014: 568-576.

有三AI知识星球-数据集

UCF101

UCF101是一个视频分类/行为识别数据集,共101个类别,13320个短视频。

作者/编辑 言有三

数据集地址:

https://www.crcv.ucf.edu/research/data-sets/human-actions/ucf101/,发布于2012年。

该数据集包括13320个短视频,来源于YouTube,共101个类别。其中每一类由25个人做动作,每个人做4-7组,视频大小为320×240。

UCF101是目前动作类别数、样本数最多的数据集之一,主要包括在自然环境下101种人类动作类别如跳、拍手、打羽毛球等等,也正因为类别众多加上UCF101在动作的采集上具有非常大的多样性,如相机运行、外观变化、姿态变化、物体比例变化、背景变化等等,所以也成为了当前难度最高的动作类数据集之一。

各个类别的数量分布如上,可知道还是比较均匀的,UCF101在视频分类/行为识别中是必须评测的基准,有如图像中的ImageNet。

更多相关的模型解读

加入有三AI知识星球即可获取

每日更新

已经超过3万字的内容

覆盖各类主流网络架构

转载文章请后台联系

侵权必究

往期精选

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有三AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档