视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition ECCV2016 https://github.com/yjxiong/temporal-segment-networks

本文侧重于从更长的视频中提取 long-range temporal structure,因为某些动作的过程较长,需要看更多的视频帧才能得到正确的动作分类。

1 Introduction 在动作识别中,主要是怎么利用视频中的 appearances and dynamics,但是提取这两个信息比较难,面临一系列的挑战如: scale variations, view point changes, and camera motions,所以在提取特征的时候,一方面我们的特征应该能够解决这些挑战,另一方面我们的特征又能够保持动作类型的信息。随着近几年 CNN 在 图像分类及其他图像分析领域中取得的进展,很自然就有人讲 CNN 应用到 动作识别中,但是效果不是很理想。 这里我们分析效果不理想的原因有两个:1) long-range temporal structure 在动作视频中扮演重要的角色,但是当前主流的 CNN网络结构主要关注appearances and short-term motions,所以 lacking the capacity to incorporate long-range temporal structure,也有人尝试通过 dense temporal sampling 来解决这个问题,但是这么做导致模型的计算量很大 尤其是处理较长时间的视频。2)训练样本过少导致模型容易出现过拟合。 这里我们采用视频动作识别中的经典架构 two-stream architecture。对于 temporal structure modeling, a key observation is that consecutive frames are highly redundant,所以稠密时间采样是不需要的。sparse temporal sampling strategy 是更好的策略。对此我们提出了 temporal segment network (TSN),从长的视频中用一个 sparse sampling scheme 提出 short snippets,样本在时间轴上均匀分布。a segmental structure is employed to aggregate information from the sampled snippets. In this sense, temporal segment networks are capable of modeling long-range temporal structure over the whole video.

针对训练样本少容易过拟合,我们主要通过以下三个方法来解决:1) cross-modality pre-training; 2) regularization; 3) enhanced data augmentation

3 Action Recognition with Temporal Segment Networks 3.1 Temporal Segment Networks 当前的 two-stream ConvNets 存在的问题就是 不能对长时间的视频进行建模,只能对连续的几帧的 short snippet 提取 temporal context an obvious problem of the two-stream ConvNets in their current forms is their inability in modeling long-range temporal structure

我们的 temporal segment network framework 主要想利用整个视频的 visual information 来进行 video-level prediction

我们将一个视频分成 K 个部分,从每个部分中随机的 选出一个 short snippet,对这个short snippet 进行 two-stream ConvNets处理,对分析结果再用 the segmental consensus function 得到 segmental consensus

四种输入形态:

Network Training 针对训练样本少的情况 1)Cross Modality Pre-training 预训练 2) Regularization Techniques: partial Batch Normalization,dropout 3)Data Augmentation

4 Experiments

UCF101 dataset

different input modalities

different segmental consensus functions

different very deep ConvNet architectures

Component analysis

效果对比

Visualization of ConvNet models for action recognition using DeepDraw

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏目标检测和深度学习

深度学习之基础网络演进、分类与定位的权衡|牛喀技研

深度学习,目标检测,图像,智能驾驶 编译:牛喀网-钱伟 前言 本篇关注基础网络架构的演进和处理分类、定位这一矛盾问题上的进展。 基础网络结构的演进 基础网络(...

4227
来自专栏AI科技大本营的专栏

AI 行业实践精选:利用深度学习识别交通信号灯

最近我在 Nexar 交通信号灯识别挑战赛上获得了第一名,这是一项由 Nexar 组织的计算机视觉比赛,该公司正在开发一款叫做 AI Dashcam 的软件。 ...

4067
来自专栏AI科技大本营的专栏

干货 | 目标检测入门,看这篇就够了(下)

? 作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文...

4917
来自专栏机器学习算法与Python学习

称霸Kaggle的十大深度学习技巧

在各种Kaggle竞赛的排行榜上,都有不少刚刚进入深度学习领域的程序员,其中大部分有一个共同点:

1102
来自专栏SIGAI学习与实践平台

人脸检测算法之 S3FD

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。

1844
来自专栏目标检测和深度学习

干货 | 目标检测入门,看这篇就够了(下)

作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文章将回...

4098
来自专栏人工智能头条

用AI给裸女自动“穿”上比基尼,妈妈再也不担心我“辣眼睛”了

互联网的内容繁杂,一不小心就会看到一些“辣眼睛”的内容,比如裸女,这也是为什么我们需要审核人员的存在。当然,受益于 AI 技术的发展,现在很多审核工作已经自动化...

681
来自专栏ATYUN订阅号

赫尔辛基大学AI基础教程:神经网络是如何构建的(5.2节)

正如我们前面所说,神经元是非常简单的处理单元。在第4章讨论了线性和逻辑回归之后,神经网络的基本技术细节可以被看作是同一个思路的变种。

1103
来自专栏人人都是极客

干货 | 目标检测入门,看这篇就够了(下)

作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文章将回顾...

3714
来自专栏机器之心

资源 | 神经网络目标计数概述:通过Faster R-CNN实现当前最佳的目标计数

选自SoftwareMill 机器之心编译 作者:Krzysztof Grajek 参与:黄小天 在机器学习中,精确地计数给定图像或视频帧中的目标实例是很困难...

36313

扫码关注云+社区