视频动作识别--Towards Good Practices for Very Deep Two-Stream ConvNets

Towards Good Practices for Very Deep Two-stream ConvNets http://yjxiong.me/others/action_recog/ https://github.com/yjxiong/caffe/tree/action_recog

本文首先指出对于静态图像分类,CNN已经取得很大进步,但是对于视频动作分类,CNN网络表现的不是很好。这里我们分析了一下原因,主要有两个:1) 使用的CNN网络 relatively shallow,没有使用 VGGNet , GoogLeNet 这些高大上的网络;2)没有足够的训练数据。这里我们提出的解决方法是:一个是使用高大上的网络VGGNet , GoogLeNet;另一个是针对训练数据过少的问题: (i) pre-training for both spatial and temporal nets, (ii) smaller learningrates, (iii) more data augmentation techniques, (iv) high drop out ratio.

2 Very Deep Two-stream ConvNets 2.1. Network architectures 这里我们分别实现了 GoogLeNet and VGGNet

very Deep Two-stream ConvNets. The spatial net is built on a single frame image (224 × 224 × 3),这个和图像分类网络是一致的。

The input of temporal net is 10-frame stacking of optical flow fields (224 × 224 × 20), 这个网络的滤波器需要根据输入进行修改.

2.2. Network training 这里主要介绍怎么在 UCF101 dataset 训练我们的 very deep two-stream ConvNets

首先是预训练 Pre-training for Two-stream ConvNets, 预训练完之后,我们对两个网络分别使用 Smaller Learning Rate,

数据增强 More Data Augmentation Techniques. random cropping and horizontal flipping

two new data augmentation techniques:1) corner cropping strategy,2)multi-scale cropping method

High Dropout Ratio: In particular, we set 0.9 and 0.8 drop out ratios for the fully connected layers of temporal nets. For spatial nets, we set 0.9 and 0.9 drop out ratios for the fully connected layers

Multi-GPU training

3 Experiments

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

IJCAI 2018 | 让CNN跑得更快,腾讯优图提出全局和动态过滤器剪枝

作者:Shaohui Lin、Rongrong Ji、Feiyue Huang 等

1183
来自专栏量子位

DeepMind的脑补AI再获新技能:看文字知场景、复杂环境、连续视频……

722
来自专栏新智元

【谷歌大脑力作】RNN最新技术:注意力增强 RNN,四大模型

【新智元导读】谷歌大脑团队的Chris Olah & Shan Carter 整理了 2016 年递归神经网络(RNN)的发展,总结了神经图灵机、注意力界面、自...

3815
来自专栏媒矿工厂

HDR关键技术:逆色调映射(一)

HDR技术近年来发展迅猛,在未来将会成为图像与视频领域的主流。当前HDR内容非常短缺,限制了HDR视听节目的广泛应用。逆色调映射(Inverse Tone Ma...

6544
来自专栏CVer

[计算机视觉论文速递] 2018-03-06

通知:此推文有12篇论文速递信息,涉及目标检测、实例分割、特征描述、姿态估计和GAN等方向。 PS:由于今天小编出差,坐8个多小时的高铁,所以整理文章较为匆...

4389
来自专栏计算机视觉战队

ECCV-2018最佼佼者的目标检测算法

转眼间,离上次9月3日已有9天的时间,好久没有将最新最好的“干货”分享给大家,让大家一起在学习群里讨论最新技术,那今天我给大家带来ECCV-2018年最优pap...

5053
来自专栏专知

【2017年末AI最新论文精选】词向量fasttext,CNN is All,强化学习,自回归生成模型, 可视化神经网络损失函数

【导读】专知内容组整理出最近arXiv放出的五篇论文,包括《Tomas Mikolov新作词向量表示,CNN Is All You Need,强化学习库, 自回...

3396
来自专栏人工智能

深度学习如何在医学影像分割上大显神通?——分割网络的三个改进思路

一、医学影像分割有助于临床工作 图像分割在影像学诊断中大有用处。自动分割能帮助医生确认病变肿瘤的大小,定量评价治疗前后的效果。除此之外,脏器和病灶的识别和甄别也...

1.4K11
来自专栏CVer

[计算机视觉论文速递] 2018-03-16

通知:这篇推文有14篇论文速递信息,涉及目标检测、图像分割、显著性目标检测、人脸识别和GAN等方向 最近有些忙,论文速递频率快下降至两天一更了,希望大家可以体谅...

43515
来自专栏媒矿工厂

HDR关键技术:质量评价技术(续)

在上一篇HDR质量评价帖中,我们列举了业内常见的HDR质量评估算法,然而不同算法有不同的应用领域。本文将结合重要的HDR技术,进一步描述HDR质量评价技术。本文...

1972

扫码关注云+社区