视频动作识别--Towards Good Practices for Very Deep Two-Stream ConvNets

Towards Good Practices for Very Deep Two-stream ConvNets http://yjxiong.me/others/action_recog/ https://github.com/yjxiong/caffe/tree/action_recog

本文首先指出对于静态图像分类,CNN已经取得很大进步,但是对于视频动作分类,CNN网络表现的不是很好。这里我们分析了一下原因,主要有两个:1) 使用的CNN网络 relatively shallow,没有使用 VGGNet , GoogLeNet 这些高大上的网络;2)没有足够的训练数据。这里我们提出的解决方法是:一个是使用高大上的网络VGGNet , GoogLeNet;另一个是针对训练数据过少的问题: (i) pre-training for both spatial and temporal nets, (ii) smaller learningrates, (iii) more data augmentation techniques, (iv) high drop out ratio.

2 Very Deep Two-stream ConvNets 2.1. Network architectures 这里我们分别实现了 GoogLeNet and VGGNet

very Deep Two-stream ConvNets. The spatial net is built on a single frame image (224 × 224 × 3),这个和图像分类网络是一致的。

The input of temporal net is 10-frame stacking of optical flow fields (224 × 224 × 20), 这个网络的滤波器需要根据输入进行修改.

2.2. Network training 这里主要介绍怎么在 UCF101 dataset 训练我们的 very deep two-stream ConvNets

首先是预训练 Pre-training for Two-stream ConvNets, 预训练完之后,我们对两个网络分别使用 Smaller Learning Rate,

数据增强 More Data Augmentation Techniques. random cropping and horizontal flipping

two new data augmentation techniques:1) corner cropping strategy,2)multi-scale cropping method

High Dropout Ratio: In particular, we set 0.9 and 0.8 drop out ratios for the fully connected layers of temporal nets. For spatial nets, we set 0.9 and 0.9 drop out ratios for the fully connected layers

Multi-GPU training

3 Experiments

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习思考者

机器学习中常见问题_几种梯度下降法

一、梯度下降法   在机器学习算法中,对于很多监督学习模型,需要对原始的模型构建损失函数,接下来便是通过优化算法对损失函数进行优化,以便寻找到最优的参数。在求解...

2328
来自专栏AI科技评论

学界 | 大白话解释模型产生过拟合的原因

AI科技评论按:本文原作者忆臻,原载于作者的知乎专栏。 今天郭江师兄在实验室讲解了全体机器学习会第一章的知识,大家讨论了一下过拟合的知识,这里我根据自己的理解,...

3439
来自专栏机器学习、深度学习

车牌检测识别--Towards End-to-End Car License Plates Detection and Recognition with Deep Neural Networks

Towards End-to-End Car License Plates Detection and Recognition with Deep Neural...

3269
来自专栏应兆康的专栏

21. 关于偏差和方差的实例

思考我们的猫咪分类器。一个理想的分类器(如:人为分类)会在这个任务中有着完美的表现。

32710
来自专栏SnailTyan

Caffe神经网络结构汇总

自2012年Alexnet赢得了ImageNet竞赛以来,深度学习(神经网络)得到了飞速发展,产生了许多的神经网络结构,本文主要总结Caffe中使用的神经网络(...

2919
来自专栏YoungGy

强化学习之Q-learning简介

强化学习在alphago中大放异彩,本文将简要介绍强化学习的一种q-learning。先从最简单的q-table下手,然后针对state过多的问题引入q-net...

3805
来自专栏AI研习社

大白话解释模型产生过拟合的原因!

今天郭江师兄在实验室讲解了全体机器学习会第一章的知识,大家讨论了一下过拟合的知识,这里我根据自己的理解,整理了一下原因,力求同最通俗的语言来描述,可能不是太严谨...

3175
来自专栏机器学习算法与Python学习

特征学习之卷积神经网络

今天介绍卷积神经网络(cnn)的训练方法,即:随机梯度下降和误差反向传播。 先说下推导的思路: (1)说明CNN是一种局部连接和权值共享...

3107
来自专栏全球人工智能的专栏

LSF-SCNN:一种基于 CNN 的短文本表达模型及相似度计算的全新优化模型

本篇文章是我在读期间,对自然语言处理中的文本相似度问题研究取得的一点小成果。有任何问题,欢迎交流。

1.5K0
来自专栏机器学习、深度学习

人群分析综述--Crowd Scene Understanding from Video: A Survey

Crowd Scene Understanding from Video: A Survey ACM Trans. Multimedia Comput. C...

1948

扫码关注云+社区