视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition ECCV2016 https://github.com/yjxiong/temporal-segment-networks

本文侧重于从更长的视频中提取 long-range temporal structure,因为某些动作的过程较长,需要看更多的视频帧才能得到正确的动作分类。

1 Introduction 在动作识别中,主要是怎么利用视频中的 appearances and dynamics,但是提取这两个信息比较难,面临一系列的挑战如: scale variations, view point changes, and camera motions,所以在提取特征的时候,一方面我们的特征应该能够解决这些挑战,另一方面我们的特征又能够保持动作类型的信息。随着近几年 CNN 在 图像分类及其他图像分析领域中取得的进展,很自然就有人讲 CNN 应用到 动作识别中,但是效果不是很理想。 这里我们分析效果不理想的原因有两个:1) long-range temporal structure 在动作视频中扮演重要的角色,但是当前主流的 CNN网络结构主要关注appearances and short-term motions,所以 lacking the capacity to incorporate long-range temporal structure,也有人尝试通过 dense temporal sampling 来解决这个问题,但是这么做导致模型的计算量很大 尤其是处理较长时间的视频。2)训练样本过少导致模型容易出现过拟合。 这里我们采用视频动作识别中的经典架构 two-stream architecture。对于 temporal structure modeling, a key observation is that consecutive frames are highly redundant,所以稠密时间采样是不需要的。sparse temporal sampling strategy 是更好的策略。对此我们提出了 temporal segment network (TSN),从长的视频中用一个 sparse sampling scheme 提出 short snippets,样本在时间轴上均匀分布。a segmental structure is employed to aggregate information from the sampled snippets. In this sense, temporal segment networks are capable of modeling long-range temporal structure over the whole video.

针对训练样本少容易过拟合,我们主要通过以下三个方法来解决:1) cross-modality pre-training; 2) regularization; 3) enhanced data augmentation

3 Action Recognition with Temporal Segment Networks 3.1 Temporal Segment Networks 当前的 two-stream ConvNets 存在的问题就是 不能对长时间的视频进行建模,只能对连续的几帧的 short snippet 提取 temporal context an obvious problem of the two-stream ConvNets in their current forms is their inability in modeling long-range temporal structure

我们的 temporal segment network framework 主要想利用整个视频的 visual information 来进行 video-level prediction

我们将一个视频分成 K 个部分,从每个部分中随机的 选出一个 short snippet,对这个short snippet 进行 two-stream ConvNets处理,对分析结果再用 the segmental consensus function 得到 segmental consensus

四种输入形态:

Network Training 针对训练样本少的情况 1)Cross Modality Pre-training 预训练 2) Regularization Techniques: partial Batch Normalization,dropout 3)Data Augmentation

4 Experiments

UCF101 dataset

different input modalities

different segmental consensus functions

different very deep ConvNet architectures

Component analysis

效果对比

Visualization of ConvNet models for action recognition using DeepDraw

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏YoungGy

构建聊天机器人:检索、seq2seq、RL、SeqGAN

本文将简要介绍聊天机器人的四种构建方法:检索、seq2seq、Reinforcement Learning、seqGAN。 ? 聊天机器人的现状 聊天机器人从应...

2759
来自专栏AI科技评论

干货分享 | 深度学习零基础进阶第二弹

图片来自wiki 昨天,雷锋网编译了《干货分享 | 深度学习零基础进阶大法!》,相信读者一定对深度学习的历史有了一个基本了解,其基本的模型架构(CNN/RNN/...

3447
来自专栏橙、

机器学习需要多少数据进行训练?

你需要的数据量取决于问题的复杂程度和算法的复杂程度。

5637
来自专栏AI研习社

上海交通大学 ECCV 2018 四篇入选论文解读

AI 研习社按:7月3日,国际人工智能及计算机视觉顶级会议ECCV 2018论文接收列表公布,今年的ECCV大会将在德国慕尼黑举行。据AI科技评论了解,上海交通...

903
来自专栏媒矿工厂

视频编码性能提升新途径——面向编码的动态预/后处理技术

2017年9月17日至20日,IEEE国际图像处理会议(ICIP 2017)在北京国家会议中心举办,国内外许多学术界以及工业界的专家学者们都与会进行交流与讨论。...

4035
来自专栏新智元

【榜单】机器学习&深度学习近三年被引最多论文 Top 20,图像识别、GAN等(附下载)

【新智元导读】 深度学习近年来取得了很多惊人的进展,其中一些重要的研究论文可能会达成让数十亿人使用的技术突破。本文搜集了自2014年来,机器学习和深度学习最重要...

3448
来自专栏大数据挖掘DT机器学习

机器学习你必须知道的几点知识

读了两篇文章,第一篇是以前老师推荐的《A Few Useful Things to Know About Machine Learning》,里面介强调了几个机...

34011
来自专栏新智元

Graph 卷积神经网络:概述、样例及最新进展

【新智元导读】Graph Convolutional Network(GCN)是直接作用于图的卷积神经网络,GCN 允许对结构化数据进行端到端的学习,也即输入可...

5929
来自专栏大数据文摘

GANs正在多个层面有所突破

1392
来自专栏机器之心

CVPR2018 | 新加坡国立大学论文:利用互补几何模型改善运动分割

选自arXiv 作者:徐迅等人 机器之心编译 参与:路、张倩 许多现实世界的场景不能简单地归类为普通的或者退化的,同时对场景的运动分割也不能简单地划分为基础矩阵...

2807

扫码关注云+社区