Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >双流网络介绍

双流网络介绍

作者头像
狼啸风云
修改于 2022-09-04 13:58:51
修改于 2022-09-04 13:58:51
3.7K0
举报

简介

双流CNN通过效仿人体视觉过程,对视频信息理解,在处理视频图像中的环境空间信息的基础上,对视频帧序列中的时序信息进行理解,为了更好地对这些信息进行理解,双流卷积神经网络将异常行为分类任务分为两个不同的部分。单独的视频单帧作为表述空间信息的载体,其中包含环境、视频中的物体等空间信息,称为空间信息网络;另外,光流信息作为时序信息的载体输入到另外一个卷积神经网络中,用来理解动作的动态特征,称为时间信息网络,为了获得比较好的异常行为分类效果,我们选用卷积神经网络对获得的数据样本进行特征提取和分类,我们将得到的单帧彩色图像与单帧光流图像以及叠加后的光流图像作为网络输入,分别对图像进行分类后,再对不同模型得到的结果进行融合。双流卷积神经网络结构如下图所示:

网络的具体结构

深度学习的效果好坏,很大程度上取决于网络的结构,目前深度学习的浪潮也催生了很多应用于不同任务的优秀网络结构,随着研究的深入和网络结构的加深,不同结构得出的效果也证实,随着网络层次结构的合理加深,网络的效果也有相应的提升。原始双流CNN的时空信息结构使用的是中等规模的卷积神经网络CNN_M网络结构。其网络结构如下图所示:

CNN_M的结构设计基本上和AlexNet是同一种思路,包括5层卷积层和3层全连接层,网络的输入图像尺寸被固定在224×224。与 AlexNet相比,CNN_M包含更多的卷积滤波器。第一层卷积层的卷积核尺寸缩小为7×7,卷积步长减小为2,其他层次的参数都与 AlexNet相同。通过增加滤波器的数量,减小滤波器的尺寸和步长,CNN_M可以更好地发现和保留原始输入图像的细节信息,因此,CNN_M学习到的滤波器较之前的网络结构有更好的鲁棒性和更高的准确率。CNN_M在ILSVRC-2014物体识别任务上获得了 13.5%的top 5错误率,较之前的网络模型有大幅度的减少。

训练

神经网络训练任务中一个较为重要的过程就是如何对各个神经元进行权重的初始化。神经元初始权重的选择将直接影响到网络的收敛速度以及训练效果,如何选择一种合适的初始化方式也成为了我们需要解决的问题。常用的初始化方法包括全0全1初始化、高斯随机初始化、标准方差初始化等,但是效果往往一般。在实际应用中,由于数据集的大小有限,迭代的次数过少,容易造成网络的过拟合或者网络不收敛,这样得到的网络效果通常很差,因此,通常不会直接训练卷积神经网络,而是使用迁移学习的方法对预训练好的网络模型在不同的数据集上进行微调,从而获得更好的效果。 如果选择目标分类任务场景相似的大规模数据集来进行预训练,由于新任务的数据量较小,容易造成过拟合。因此,选取ImageNet ILSVRC-2012物体分类数据集对网络进行预训练,然后再在动作分类数据集上进行微调。对于空间信息,直接使用RGB单帧图像进行训练和预测,预训练数据集和动作视频数据集的模式相差不多,但对于时序信息的光流特征,光流场的模式与普通RGB图像有所差异,所以对光流图像进行上一节中所述的处理,将光流矢量投影到0到255的区间内,用彩色图像的形式对光流矢量图进行表示。在之后的实验中,发现通过RGB图像预训练的模型对光流图像的训练也同样适用。

另外,由于在ImageNet上预训练了模型,需要调小模型训练初始的学习率,并根据训练的迭代次数对学习率实时进行调整,随着迭代次数的增多,减小学习率。最终得到在动作数据集上训练好的网络模型,并且可以根据具体的应用场景以及数据集模式对模型加以调整,进行迁移学习。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018年12月14日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
视频的行为识别「建议收藏」
使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支:分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法。本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释,并对每一个分支的算法集合总结自己的心得。本文暂不区分行为识别(Activity Recognition)与动作识别(Action Recognition)。
全栈程序员站长
2022/06/27
1.6K0
视频的行为识别「建议收藏」
深度学习教程 | 经典CNN网络实例详解
本系列为吴恩达老师《深度学习专项课程(Deep Learning Specialization)》学习与总结整理所得,对应的课程视频可以在这里查看。
ShowMeAI
2022/04/15
1.1K0
深度学习教程 | 经典CNN网络实例详解
拿快手offer,涨薪30w。。。
今天总结了一些关于「卷积神经网络」的经典论文分享给大家,希望可以给大家发论文提供一些灵感。
Python编程爱好者
2024/05/13
1210
拿快手offer,涨薪30w。。。
卷积神经网络(CNN)基础介绍
本文是对卷积神经网络的基础进行介绍,主要内容包括卷积神经网络概念、卷积神经网络结构、卷积神经网络求解、卷积神经网络LeNet-5结构分析、卷积神经网络注意事项。
全栈程序员站长
2022/07/22
2.2K0
卷积神经网络(CNN)基础介绍
学界 | FAIR提出用聚类方法结合卷积网络,实现无监督端到端图像分类
预训练的卷积神经网络,或称卷积网络,已经成为大多数计算机视觉应用的基础构建模块 [1,2,3,4]。它们能提取极好的通用特征,用来提高在有限数据上学习的模型的泛化能力 [5]。大型全监督数据集 ImageNet[6] 的建立促进了卷积网络的预训练的进展。然而,Stock 和 Cisse [7] 最近提出的经验证据表明,在 ImageNet 上表现最优的分类器的性能在很大程度上被低估了,而且几乎没有遗留错误问题。这在一定程度上解释了为什么尽管近年来出现了大量新架构,但性能仍然饱和 [2,8,9]。事实上,按照今天的标准,ImageNet 是相对较小的;它「仅仅」包含了一百万张涵盖各个领域的分类图片。所以建立一个更大更多样化,甚至包含数十亿图片的数据集是顺理成章的。而这也将需要大量的手工标注,尽管社区多年来积累了丰富的众包专家知识 [10],但通过原始的元数据代替标签会导致视觉表征的偏差,从而产生无法预测的后果 [11]。这就需要在无监督的情况下对互联网级别的数据集进行训练的方法。
机器之心
2018/08/07
1.5K0
学界 | FAIR提出用聚类方法结合卷积网络,实现无监督端到端图像分类
用AI让静图变动图:CVPR热文提出动态纹理合成新方法
选自arXiv 作者:Matthew Tesfaldet等 机器之心编译 参与:路、李泽南 图画总是只能表现事物瞬间的形象,而动画则需要逐帧手绘,费时费力,人工智能是否能够帮助我们解决这一困难?近日,来自加拿大约克大学、Ryerson 大学的研究者们提出了使用「双流卷积神经网络」的动画生成方法,其参考了人类感知动态纹理画面的双路径模式。该动画生成模型可以参考相关视频,让一张静态图片变成效果逼真的动画。目前,该研究的论文已被 CVPR 2018 大会接收,相关代码也已公开。 项目展示页:https://rye
机器之心
2018/05/08
1.5K2
用AI让静图变动图:CVPR热文提出动态纹理合成新方法
神经网络体系搭建(三)——卷积神经网络
本篇是神经网络体系搭建的第三篇,解决体系搭建的卷积神经网络相关问题,详见神经网络体系搭建(序) 卷积神经网络(CNN) CNN是什么 卷积神经网络是一种空间上共享参数的神经网络。 为什么会有CNN 像
刘开心_1266679
2018/04/17
1.4K0
神经网络体系搭建(三)——卷积神经网络
面试商汤,效率太恐怖了。。。
今天看到一个帖子,说是商汤面试的氛围很好,面试的内容很仔细,而且整体下来的效率非常高。
Python编程爱好者
2024/05/03
2820
面试商汤,效率太恐怖了。。。
MIT 6.S094· 深度学习 | 学霸的课程笔记,我们都替你整理好了
计算机视觉,到目前为止都是深度学习。并且大部分成功理解图片含义的案例都是使用神经网络。
朱晓霞
2018/07/23
6440
MIT 6.S094· 深度学习 | 学霸的课程笔记,我们都替你整理好了
【深度学习】CNN图像分类:从LeNet5到EfficientNet
在对卷积的含义有了一定的理解之后,我们便可以对CNN在最简单的计算机视觉任务图像分类中的经典网络进行探索。CNN在近几年的发展历程中,从经典的LeNet5网络到最近号称最好的图像分类网络EfficientNet,大量学者不断的做出了努力和创新。本讲我们就来梳理经典的图像分类网络。
黄博的机器学习圈子
2020/10/19
4.2K0
【深度学习】CNN图像分类:从LeNet5到EfficientNet
卷积神经网络处理自然语言
当我们听到卷积神经网络(Convolutional Neural Network, CNNs)时,往往会联想到计算机视觉。CNNs在图像分类领域做出了巨大贡献,也是当今绝大多数计算机视觉系统的核心技术,从Facebook的图像自动标签到自动驾驶汽车都在使用。 最近我们开始在自然语言处理(Natural Language Processing)领域应用CNNs,并取得了一些引人注目的成果。我将在本文中归纳什么是CNNs,怎样将它们应用于NLP。CNNs背后的直觉知识在计算机视觉的用例里更容易被理解,因此我就先
CSDN技术头条
2018/02/11
9190
卷积神经网络处理自然语言
深度概览卷积神经网络全景图,没有比这更全的了
【AI科技大本营导读】深度卷积神经网络是这一波 AI 浪潮背后的大功臣。虽然很多人可能都已经听说过这个名词,但是对于这个领域的相关从业者或者科研学者来说,浅显的了解并不足够。近日,约克大学电气工程与计算机科学系的 Isma Hadji 和 Richard P. Wildes 发表了一篇《我们该如何理解卷积神经网络?》的论文:
AI科技大本营
2018/07/23
3910
深度学习基础之卷积神经网络
卷积神经网络(Convolutional Neural Networks, CNN)是深度学习领域的重要分支,其历史发展和关键里程碑可以追溯到20世纪50年代,并经历了多个重要的阶段。
用户11315985
2024/10/16
2480
深度学习基础之卷积神经网络
面向视频编解码后处理的深度学习方法进展
接前一帖(适用于视频编码帧间预测分数像素插值的卷积神经网络方法简介),今天继续介绍一类基于人工智能的视频处理技术——深度学习在视频后处理中的应用。 1 背景介绍 视频以及图像的有损压缩算法会造成较为严重的失真以及效应,比如,基于块的编码策略将会引起块效应;高频分量的缺失会造成压缩后的图像会更加模糊,还有振铃效应,颜色偏移等等。特别是在编码是在较差的编码配置下(低比特率)尤为明显。这些效应会严重降低用户体验,所以如何去除这些效应或者削弱这些效应的影响也就成为一个重要的问题。 在新一代视频编码标准HEVC(Hi
用户1324186
2018/03/06
2.6K0
面向视频编解码后处理的深度学习方法进展
推荐|改变你对世界看法的五大计算机视觉技术!
计算机视觉是当前最热门的研究之一,是一门多学科交叉的研究,涵盖计算机科学(图形学、算法、理论研究等)、数学(信息检索、机器学习)、工程(机器人、NLP等)、生物学(神经系统科学)和心理学(认知科学)。由于计算机视觉表示对视觉环境及背景的相对理解,很多科学家相信,这一领域的研究将为人工智能行业的发展奠定基础。 那么,什么是计算机视觉呢?下面是一些公认的定义: 从图像中清晰地、有意义地描述物理对象的结构(Ballard & Brown,1982); 由一个或多个数字图像计算立体世界的性质(Trucco & Ve
朱晓霞
2018/04/18
7460
推荐|改变你对世界看法的五大计算机视觉技术!
CNN网络介绍与实践:王者荣耀英雄图片识别
本文介绍了如何用深度学习实现王者荣耀的英雄识别。首先介绍了传统的英雄识别方法,然后介绍了使用CNN提取特征进行识别的方法。最后,介绍了一种使用LSTM进行序列标注的方法。
serena
2017/11/30
3.5K1
CNN网络介绍与实践:王者荣耀英雄图片识别
五一充电之卷积神经网络的典型结构
典型的卷积神经网络由卷积层、池化层、全连接层构成。在这里以LeNet5网络来说明,下图是这个网络的结构:
SIGAI学习与实践平台
2019/05/14
1.5K0
五一充电之卷积神经网络的典型结构
CNN神经网络的直观解释
卷积神经网络(ConvNets 或者 CNNs)属于神经网络的范畴,已经在诸如图像识别和分类的领域证明了其高效的能力。卷积神经网络可以成功识别人脸、物体和交通信号,从而为机器人和自动驾驶汽车提供视力。
bear_fish
2018/09/19
6770
卷积神经网络超详细介绍
上世纪60年代,Hubel等人通过对猫视觉皮层细胞的研究,提出了感受野这个概念,到80年代,Fukushima在感受野概念的基础之上提出了神经认知机的概念,可以看作是卷积神经网络的第一个实现网络,神经认知机将一个视觉模式分解成许多子模式(特征),然后进入分层递阶式相连的特征平面进行处理,它试图将视觉系统模型化,使其能够在即使物体有位移或轻微变形的时候,也能完成识别。
全栈程序员站长
2022/06/29
1.3K0
卷积神经网络超详细介绍
卷积神经网络表征可视化研究综述(1)
近年来, 深度学习在图像分类、目标检测及场景识别等任务上取得了突破性进展, 这些任务多以卷积神经网络为基础搭建识别模型, 训练后的模型拥有优异的自动特征提取和预测性能, 能够为用户提供“输入–输出”形式的端到端解决方案. 然而, 由于分布式的特征编码和越来越复杂的模型结构, 人们始终无法准确理解卷积神经网络模型内部知识表示, 以及促使其做出特定决策的潜在原因. 另一方面, 卷积神经网络模型在一些高风险领域的应用, 也要求对其决策原因进行充分了解, 方能获取用户信任. 因此, 卷积神经网络的可解释性问题逐渐受到关注. 研究人员针对性地提出了一系列用于理解和解释卷积神经网络的方法, 包括事后解释方法和构建自解释的模型等, 这些方法各有侧重和优势, 从多方面对卷积神经网络进行特征分析和决策解释. 表征可视化是其中一种重要的卷积神经网络可解释性方法, 能够对卷积神经网络所学特征及输入–输出之间的相关关系以视觉的方式呈现, 从而快速获取对卷积神经网络内部特征和决策的理解, 具有过程简单和效果直观的特点. 对近年来卷积神经网络表征可视化领域的相关文献进行了综合性回顾, 按照以下几个方面组织内容: 表征可视化研究的提起、相关概念及内容、可视化方法、可视化的效果评估及可视化的应用, 重点关注了表征可视化方法的分类及算法的具体过程. 最后是总结和对该领域仍存在的难点及未来研究趋势进行了展望.
用户9882025
2022/08/09
5050
相关推荐
视频的行为识别「建议收藏」
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档