视频动作识别--Towards Good Practices for Very Deep Two-Stream ConvNets

Towards Good Practices for Very Deep Two-stream ConvNets http://yjxiong.me/others/action_recog/ https://github.com/yjxiong/caffe/tree/action_recog

本文首先指出对于静态图像分类,CNN已经取得很大进步,但是对于视频动作分类,CNN网络表现的不是很好。这里我们分析了一下原因,主要有两个:1) 使用的CNN网络 relatively shallow,没有使用 VGGNet , GoogLeNet 这些高大上的网络;2)没有足够的训练数据。这里我们提出的解决方法是:一个是使用高大上的网络VGGNet , GoogLeNet;另一个是针对训练数据过少的问题: (i) pre-training for both spatial and temporal nets, (ii) smaller learningrates, (iii) more data augmentation techniques, (iv) high drop out ratio.

2 Very Deep Two-stream ConvNets 2.1. Network architectures 这里我们分别实现了 GoogLeNet and VGGNet

very Deep Two-stream ConvNets. The spatial net is built on a single frame image (224 × 224 × 3),这个和图像分类网络是一致的。

The input of temporal net is 10-frame stacking of optical flow fields (224 × 224 × 20), 这个网络的滤波器需要根据输入进行修改.

2.2. Network training 这里主要介绍怎么在 UCF101 dataset 训练我们的 very deep two-stream ConvNets

首先是预训练 Pre-training for Two-stream ConvNets, 预训练完之后,我们对两个网络分别使用 Smaller Learning Rate,

数据增强 More Data Augmentation Techniques. random cropping and horizontal flipping

two new data augmentation techniques:1) corner cropping strategy,2)multi-scale cropping method

High Dropout Ratio: In particular, we set 0.9 and 0.8 drop out ratios for the fully connected layers of temporal nets. For spatial nets, we set 0.9 and 0.9 drop out ratios for the fully connected layers

Multi-GPU training

3 Experiments

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏yw的数据分析

R语言进行机器学习方法及实例(一)

  机器学习的研究领域是发明计算机算法,把数据转变为智能行为。机器学习和数据挖掘的区别可能是机器学习侧重于执行一个已知的任务,而数据发掘是在大数据中寻找有价值的...

7217
来自专栏机器学习算法工程师

基础|认识机器学习中的逻辑回归、决策树、神经网络算法

逻辑回归。它始于输出结果为有实际意义的连续值的线性回归,但是线性回归对于分类的问题没有办法准确而又具备鲁棒性地分割,因此我们设计出了逻辑回归这样一个算法,它的输...

1143
来自专栏机器学习与自然语言处理

深度学习在文本分类中的应用

近期阅读了一些深度学习在文本分类中的应用相关论文(论文笔记),同时也参加了CCF 大数据与计算智能大赛(BDCI)2017的一个文本分类问题的比赛:让AI当法...

4686
来自专栏机器学习算法与Python学习

机器学习(7) -- k-means 聚类

根据大家的提议,从今天起每次算法介绍完之后会给大家一个用python编写的实例刚打架参考 Clustering  9. Clustering     9.1...

3485
来自专栏SIGAI学习与实践平台

理解神经网络的激活函数

激活函数在神经网络中具有重要的地位,对于常用的函数如sigmoid,tanh,ReLU,不少读者都已经非常熟悉。但是你是否曾想过这几个问题:

852
来自专栏ATYUN订阅号

机器学习入门——使用python进行监督学习

? 什么是监督学习? 在监督学习中,我们首先要导入包含训练特征和目标特征的数据集。监督式学习算法会学习训练样本与其相关的目标变量之间的关系,并应用学到的关系对...

44210
来自专栏磐创AI技术团队的专栏

基于word2vec训练词向量(一)

1.回顾DNN训练词向量 上次说到了通过DNN模型训练词获得词向量,这次来讲解下如何用word2vec训练词获取词向量。 回顾下之前所说的DNN训练词向量的模...

4215
来自专栏深度学习思考者

深入浅出——搞懂卷积神经网络的过拟合、梯度弥散、batchsize的影响的问题(二)

  上一篇主要是对卷积神经网络的整个训练过程中公式以及误差的推导给出详细的分析。   博客地址:https://cloud.tencent.com/deve...

3409
来自专栏大数据挖掘DT机器学习

特征选择常用算法

1 综述 (1) 什么是特征选择 特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , ...

3408
来自专栏mantou大数据

[机器学习Lesson 2]代价函数之线性回归算法

x(1) 指的是 第一个训练集里值为2104的输入值, 这个就是第一行里的x x(2) 等于1416。这是第二个x y(1) 等于460,这是第一个训练集样本的...

45010

扫码关注云+社区