视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition ECCV2016 https://github.com/yjxiong/temporal-segment-networks

本文侧重于从更长的视频中提取 long-range temporal structure,因为某些动作的过程较长,需要看更多的视频帧才能得到正确的动作分类。

1 Introduction 在动作识别中,主要是怎么利用视频中的 appearances and dynamics,但是提取这两个信息比较难,面临一系列的挑战如: scale variations, view point changes, and camera motions,所以在提取特征的时候,一方面我们的特征应该能够解决这些挑战,另一方面我们的特征又能够保持动作类型的信息。随着近几年 CNN 在 图像分类及其他图像分析领域中取得的进展,很自然就有人讲 CNN 应用到 动作识别中,但是效果不是很理想。 这里我们分析效果不理想的原因有两个:1) long-range temporal structure 在动作视频中扮演重要的角色,但是当前主流的 CNN网络结构主要关注appearances and short-term motions,所以 lacking the capacity to incorporate long-range temporal structure,也有人尝试通过 dense temporal sampling 来解决这个问题,但是这么做导致模型的计算量很大 尤其是处理较长时间的视频。2)训练样本过少导致模型容易出现过拟合。 这里我们采用视频动作识别中的经典架构 two-stream architecture。对于 temporal structure modeling, a key observation is that consecutive frames are highly redundant,所以稠密时间采样是不需要的。sparse temporal sampling strategy 是更好的策略。对此我们提出了 temporal segment network (TSN),从长的视频中用一个 sparse sampling scheme 提出 short snippets,样本在时间轴上均匀分布。a segmental structure is employed to aggregate information from the sampled snippets. In this sense, temporal segment networks are capable of modeling long-range temporal structure over the whole video.

针对训练样本少容易过拟合,我们主要通过以下三个方法来解决:1) cross-modality pre-training; 2) regularization; 3) enhanced data augmentation

3 Action Recognition with Temporal Segment Networks 3.1 Temporal Segment Networks 当前的 two-stream ConvNets 存在的问题就是 不能对长时间的视频进行建模,只能对连续的几帧的 short snippet 提取 temporal context an obvious problem of the two-stream ConvNets in their current forms is their inability in modeling long-range temporal structure

我们的 temporal segment network framework 主要想利用整个视频的 visual information 来进行 video-level prediction

我们将一个视频分成 K 个部分,从每个部分中随机的 选出一个 short snippet,对这个short snippet 进行 two-stream ConvNets处理,对分析结果再用 the segmental consensus function 得到 segmental consensus

四种输入形态:

Network Training 针对训练样本少的情况 1)Cross Modality Pre-training 预训练 2) Regularization Techniques: partial Batch Normalization,dropout 3)Data Augmentation

4 Experiments

UCF101 dataset

different input modalities

different segmental consensus functions

different very deep ConvNet architectures

Component analysis

效果对比

Visualization of ConvNet models for action recognition using DeepDraw

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

【学术】手把手教你解决90%的自然语言处理问题

无论你是成熟的公司,还是想要推出一个新服务,都可以利用文本数据来验证、改进和扩展产品的功能。科学的从文本数据中提取语义并学习是自然语言处理(NLP)研究的一个课...

3555
来自专栏企鹅号快讯

机器学习初学者常犯的六大错误总结

AiTechYun 编辑:yining 在机器学习中,有很多方法来构建产品或解决方案,而且每种方法都有不同的假设。很多时候,如何识别哪些假设是合理的并不是件容易...

1968
来自专栏腾讯大数据的专栏

递归的艺术 - 深度递归网络在序列式推荐的应用

在内容爆炸性增长的今天,个性化推荐发挥着越来越重要的作用,如何在海量的数据中帮助用户找到感兴趣的物品,成为大数据领域极具挑战性的一项工作;另一方面,深...

2829
来自专栏新智元

世界纪录!4分钟训练完ImageNet!可扩展超大规模GPU收敛算法详解

【新智元导读】腾讯机智机器学习平台和香港浸会大学计算机科学系褚晓文教授团队合作,在ImageNet数据集上,4分钟训练好AlexNet,6.6分钟训练好ResN...

1025
来自专栏机器之心

业界 | OpenAI开源算法ACKTR与A2C:把可扩展的自然梯度应用到强化学习

4478
来自专栏AI科技大本营的专栏

胶囊网络为何如此热门?与卷积神经网络相比谁能更甚一筹?

编译 | AI科技大本营 参与 | 孙士洁 编辑 | 明 明 【AI科技大本营按】胶囊网络是什么?胶囊网络怎么能克服卷积神经网络的缺点和不足?机器学习顾...

3334
来自专栏技术随笔

深度学习 — 图像风格化实验记录

------问对了问题 ,就成功了一半 Tags: 深度学习 CNN 图片风格化 ---- ? A Neural Algorithm of Artistic S...

35112
来自专栏大数据文摘

手把手:自然语言处理太难?按这个套路走,就是砍瓜切菜!(附Python代码)

1602
来自专栏AI科技评论

动态 | 4分钟训练ImageNet!腾讯机智创造AI训练世界纪录

注:腾讯机智机器学习平台由TEG架构平台部和运营管理部团队携手,并和香港浸会大学计算机科学系褚晓文教授团队深度合作联袂打造。本文转载自腾讯技术工程公众号

861
来自专栏机器学习算法工程师

【干货教程】自然语言处理入门:手把手教你解决90%的NLP问题

作者:孟廉 编辑:田旭 前 言 文章来自:https://blog.insightdatascience.com 作者:Emmanuel Ameisen 无...

8557

扫码关注云+社区