这篇文章[1]主要研究了如何有效地将深度学习用在动作识别领域。作者提出,这个任务的主要挑战在于如何让神经网络同时捕获到两种信息:一种是 appearance 信息(比如物体的大小、形状等静态信息),另一种是 motion 信息(即物体的运动信息)。这篇文章的主要贡献有三点,第一是提出了一个基于 CNN 的双流网络,它同时结合了时空间信息;第二,作者展示了即使只有少量训练数据,基于 CNN 的神经网络在视频帧的光流信息上进行训练能取得很好的性能;最后,作者展示了双流网络在多任务学习上的潜力,作者在两个数据集上同时训练一个双流骨干网络,相比于使用单一数据集,训练后的网络在两个数据集上都有性能提升。作者在 UCF-101 和 HMDB-51 数据集上进行了实验,效果能和当时的 SOTA 方法(当时还是非深度的方法)性能相当,比之前使用神经网络的方法要好很多。
AI 科技评论按:计算机视觉顶会 CVPR 2019 即将于 6 月在美国长滩召开,今年大会共收到超过 5165 篇论文投稿,最终收录的论文为 1299 篇。随着会议临近,无论是学术界还是业界都迎来了一波 CVPR 2019 入选论文解读热潮。
最近看了下几篇动作识别,视频理解的文章,在这里记下小笔记,简单过一下核心思想,以便后续查阅及拓展使用。
机器之心专栏 作者:侯文轩 本文对最近被 TPAMI 接收的一篇综述文章 Human Action Recognition from Various Data Modalities: A Review(基于不同数据模态的人类动作识别综述)进行解读。 原综述文章地址:https:arxiv.org/pdf/2012.11866.pdf 1 概述 人类动作识别(Human Action Recognition, HAR)旨在理解人类的行为,并为每个行为分配一个标签。多种不同的数据形态都可以用来表示人类的动作和
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 本文对最近被 TPAMI 接收的一篇综述文章 Human Action Recognition from Various Data Modalities: A Review(基于不同数据模态的人类动作识别综述)进行解读。 原综述文章地址:https:arxiv.org/pdf/2012.11866.pdf 1 概述 人类动作识别(Human Action Recognition, HAR)旨在理解人类的行为,并为每个行为分配一个标签。多
随着互联网的不断发展,各种应用的不断推广。数据无论从存储,格式,形式,类型等方面都趋向于多样化,丰富化,指数化。数据就是价值,为何这么说呢?在机器学习,深度学习推动下,训练数据需求很大。对于分类模型,训练数据越多,分类器的准确度会在一定程度上更精确。行为识别可以说就是在这基础上演变出来的一个研究分支。那么什么是行为识别呢?我的理解是这样的,比如对于某个图片或者视频中的某个信息进行捕获,我们可以使用特征工程进行特征提取,这些特征提取说白了就是基于对图片局部中像素进行操作,对于视频,我们可以将视频按帧分解成图片,常用工具有ffmpeg,也可以使用python中基于视频分解图片的模块包自行通过调用处理。对于得到的图片,我们可以对其进行特征提取,比如常用的特征提取方法有Haar,Hog等,它们在结合具体的分类器比如adaboost,svm等可以对图片中相关特征精确提取达到一定准确度。有了特征之后,我们可以使用机器学习中分类器或者深度学习中的分类器利用已经得到特征进行训练,之后对未知图片进行预测,这也就达到了行为识别的目的。 行为识别存在问题?由于受到视频背景混乱、闭塞、视点变化等原因,对行动的准确识别是一项极具挑战性的任务,大多数现有方法对拍摄视频的环境做出某些假设。然而,这种假设在现实环境中很少成立。此外,大多数在这些方法都遵循传统的模式模式识别,包括两个步骤,第一步从原始视频中计算并提取特征,第二步通过该特征训练分类器。在现实世界中在场景中,很少知道哪些特征对手头的任务很重要,因为特征的选择是高度依赖问题。特别是对于人类行为识别。 行为识别的发展从哪开始呀?关于行为识别最早开始于19世纪中后期,科学家首先在动物行为方面进行了机械学研究[1]。但是由于当时的计算机不能处理大规模的数据计算,行为识别的研究也没有得到重视。直到20年代末期,关于行为识别的研究也是寥寥可数,当时的研究人员通过采集大量的实验数据进行分析和研究,训练并构建模型,然后匹配模型和行为序列,最终达到行为理解的目的。由于计算量的规模性,当时的研究只能局限于分析简单的行为运动。进入本世纪后,世界上多家名校和研究机构都在行为识别进行了深入研究和探索[2]。在工业界,行为识别可以说占据了普遍优势,如行程规划,用户社交行为,人员调度等领域已经出现了行为识别的相关应用。行为识别和模式识别比较火热的研究话题。 行为识别的的发展如何呢?目前行为识别的主要有两大流派:Two-Stream和C3D。Two-Stream的思想是是基于视频帧图像,其表示的是静态信息和对视频序列中每两帧计算密集光流得到的光流序列,该序列表示的是时序信息,然后利用相关深度网络对它们分别训练出一个模型,在各自网络产生结果后,对结果进行融合;它能有效的从一张图片中识别出行为的类别。利用双流CNN网络分别基于RGB图像和由视频得到的光流序列各自训练一个模型,这两个模型分别对动作进行判断,最后将两这训练结果进行融合,在UCF-101数据库上准确率达到88%,在HMDB51行为数据库达到59.4%[3]。将双流网络改成VGG-16网络,VGG-16卷积神经网络探索了深度与其性能之间的关系,通过反复堆叠33的小型卷积核和22的最大池化层,层数为16层,经实验提高了准确率[4]。C3D对CNN中的卷积(convolution)操作和池化(pooling)操作进行改良,其采用3D卷积核,在时间和空间维度上进行操作,能捕捉到视频流中的运动信息。一个用于人类行为识别的3D CNN架构,该体系结构由1个硬接线层、3个卷积层、2个子采样层和1个全连接层组成,以7帧尺寸为60×40帧作为3D CNN模型的输入。采用不同的卷积规模,最终在TRECVID DATA上的精准率达到了71.37%[5]。 可能对于深入的研究可能还有需要多去研究相关论文,多去动手上机实验。谢谢!
2019年,据美联社报道,一名间谍利用AI生成的个人资料和图片,在全球知名的职场社交平台LinkedIn上欺骗联系人,包括政治专家和政府内部人员[1][2]。 这位30多岁的女性名叫凯蒂•琼斯,拥有一份顶级智库的工作,虽然她的关系网规模不大,只有52个联系人,但却都有着举足轻重的影响力,比如:一位副助理国务卿、一位参议员的高级助理、以及正在考虑谋求美联储一席之地的经济学家保罗•温弗里。 然而,经过许多相关人员和专家的调查采访,美联社证实了凯蒂•琼斯其实并不存在,她的人脸照片似乎是由一种典型的GAN技
“计算机视觉战队”在今天给大家带来干货的之前,先说一些最近我发现的一些事。(纯自己的见解)最近,CVPR2019让圈内有一次火热起来,出现了一大波新技术新思想新框架,对应的技术确实值得我们去学习!
摘要:行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。
本篇文章分享论文『PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining』,由腾讯&上交&浙大(沈春华)提出PyramidCLIP,进行层次内语义对齐和跨层次关系对齐,ImageNet上Zero-Shot效果优于CLIP!
显著性检测近年来引起了广泛的研究兴趣。这种日益流行的原因在于在各种视觉任务(如图像分割、目标检测、视频摘要和压缩等)中有效地使用了这些模型。显著性模型大致可分为两类:人眼注视预测和显著目标检测。根据输入类型,可进一步分为静态显著性模型和动态显著性模型。
摘要:受人类的视觉注意力机制启发,显著性目标检测任务旨在定位给定场景中最吸引人注意的目标或区域。近年来, 随着深度相机的发展和普及, 深度图像已经被成功应用于各类计算机视觉任务, 这也为显著性目标检测技术提供了新思路。通过引入深度图像, 不仅能使计算机更加全面地模拟人类视觉系统, 而且深度图像所提供的结构、位置等补充信息也可以为低对比度、复杂背景等困难场景的检测提供新的解决方案。鉴于深度学习时代下RGB-D显著目标检测任务发展迅速,旨在从该任务关键问题的解决方案出发,对现有相关研究成果进行归纳、总结和梳理,并在常用RGB-D SOD数据集上进行不同方法的定量分析和定性比较。最后, 对该领域面临的挑战及未来的发展趋势进行总结与展望。
近日,中国人工智能学会(CAAI)公示了2019年年度优秀博士学位论文评选的最终结果。
基于骨骼点的动作识别 (Skeleton-based Action Recognition) 旨在从一系列时间连续的人体骨骼点中识别正在执行的动作。相较于 RGB 帧或光流,人体骨骼这一模态与人体动作天然更密切,且更加紧凑。
使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支:分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法。本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释,并对每一个分支的算法集合总结自己的心得。本文暂不区分行为识别(Activity Recognition)与动作识别(Action Recognition)。
双流CNN通过效仿人体视觉过程,对视频信息理解,在处理视频图像中的环境空间信息的基础上,对视频帧序列中的时序信息进行理解,为了更好地对这些信息进行理解,双流卷积神经网络将异常行为分类任务分为两个不同的部分。单独的视频单帧作为表述空间信息的载体,其中包含环境、视频中的物体等空间信息,称为空间信息网络;另外,光流信息作为时序信息的载体输入到另外一个卷积神经网络中,用来理解动作的动态特征,称为时间信息网络,为了获得比较好的异常行为分类效果,我们选用卷积神经网络对获得的数据样本进行特征提取和分类,我们将得到的单帧彩色图像与单帧光流图像以及叠加后的光流图像作为网络输入,分别对图像进行分类后,再对不同模型得到的结果进行融合。双流卷积神经网络结构如下图所示:
稠密检索是搜索、推荐、广告等领域的关键性技术;面向稠密检索的预训练是业界高度重视的研究课题。近期,华为泊松实验室联合北京邮电大学、华为昇思 MindSpore 团队提出“基于掩码自编码器的检索预训练语言模型 RetroMAE”,大幅刷新稠密检索领域的多项重要基准。而其预训练任务的简洁性与有效性,也为下一步技术的发展开辟了全新的思路。该工作已录用于自然语言处理领域顶级学术会议 EMNLP 2022。基于昇思开源学习框架的模型与源代码已向社区开放。
I3D是一个视频理解模型,采用双流网络的架构,他的核心贡献是提出了如何对2d网络进行膨胀操作,同时提出了一个新的数据集 Kinetics
CVPR 2014 Tutorial on Emerging Topics in Human Activity Recognition
AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,未经许可不得转载。
欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。
【新智元导读】LeCun曾在演讲中提到,2016年深度学习领域最让他兴奋的技术莫过于对抗学习,而无监督学习一直都是人工智能研究者孜孜追求的“终极目标”之一。MIT 计算机科学和人工智能实验室的研究员们在本年度的NIPS上提交了结合对抗学习和无监督学习两种方法的研究——让计算机在观看了200万条视频后自动“创作”视频内容,结果非常逼真。研究所开发的深度学习神经网络也可以直接用到现有的图片和视频中,把静态图片变成动态视频,并且对人类的动作具有一定的判断和预测能力。 MIT 计算机科学和人工智能实验室(CSAIL
纵览:视频理解算法经过了手工特征-> CNN -> Two stream ->3D卷积 ->Transformer的一步步演进,不断使模型具有更强的表征能力
2017政府工作报告,指出要加快培育壮大包括人工智能在内的新兴产业,“人工智能”也首次被写入了全国政府工作报告。百度李彦宏,腾讯马化腾都在两会上就人工智能发表意见。科大讯飞刘庆峰在朋友圈分享了讯飞听见支持两会直播的消息。结合上月科技部新闻,“科技创新2030—重大项目”或将新增“人工智能2.0”,人工智能在中国的政治、经济、学术领域都成为重中之重。这是中国 AI人最好的时代——2017年,中国人工智能迎来真正的新纪元。
通知:这篇文章有9篇论文速递信息,涉及人脸、目标检测、显著性目标检测和图像分割等方向 往期回顾 TensorFlow.js人脸识别—玩转吃豆豆小游戏 [计算机视觉论文速递] 2018-03-31 YOLOv3:你一定不能错过 Face [1]《Learning to Anonymize Faces for Privacy Preserving Action Detection》 Abstract:人们越来越担心计算机视觉设备通过录制不需要的视频会侵犯用户的隐私。一方面,我们希望相机系统/机器人能够通
动作识别的主要目标是判断一段视频中人的行为的类别,所以也可以叫做 Human Action Recognition。
背景介绍 视频对象分割(Video Object Segmentation),目的是将视频段中的物体连续地“抠”出来以得到视频每一帧的前景、背景分割结果。分割得到的结果可被用于更高级的识别、理解等计算机视觉任务,是目前基于内容的视频检索、视频编辑、视频自动标注的基础和关键环节。传统的视频对象分割算法有很多,根据在测试视频上执行是否需要人工标注可将其分为半监督算法和无监督算法两类。这里半监督算法在执行时需要人工对某些帧进行精确或非精确标注并根据标注结果得到其他帧的分割结果;而无监督算法在执行时完全自动地对所有
人员规范操作行为识别系统通过Python基于yolov5网络深度学习架构模型对现场人员操作行为进行实时监测分析,如果人员规范操作行为识别系统yolov5网络深度学习架构模型发现现场人员未按照要求规范进行操作、遗漏操作步骤更改先后作业顺序或者操作不规范,yolov5网络深度学习架构模型系统立即抓拍存档现场语音播报提醒相关人员行为不规范请立即改正,并同步违规信息到后台,推动现场作业安全着装规范、提升安全规范作业效率。
【导读】第25届ACM国际多媒体会议(ACM Multimedia, 简称ACM MM)于2017年10月23日至27日在美国硅谷Mountain View隆重举行。微软亚洲研究院资深研究员梅涛博士为大会带来了题为《Deep Learning for Intelligent Video Analysis》的分享报告, 介绍了基于深度学习的智能视频分析相关的最新成果。为此,专知内容组整理了的梅涛博士的slides,进行了解读,请大家查看,并多交流指正! 此外,请查看本文末尾,可下载最新ACM MM 2017
因为标题长度有限,所以把Face Recognition简写成F R,论文题目应为《Attribute-Enhanced Face Recognition with Neural Tensor Fusion Networks》 1 需要解决的问题(Problem) 从稳定的到大的变化的状态(例如:姿势、光照、表情变化),使用深度学习方法所得到的特征仍存在缺陷。 2 所使用的方法(Method) 作者提出了一种基于张量的融合结构,能够有效的融合面部识别特征(FRF)与面部属性特征(FAF)。为了解决普通模型参
多通道卷积不同的通道上的卷积核的参数是不同的,而3D卷积则由于卷积核本身是3D的,所以这个由于“深度”造成的看似不同通道上用的就是同一个卷积,权重共享嘛。
城市道路积水识别监测系统基于OpenCv深度学习模型以及yolo网络架构,城市道路积水识别监测OpenCv深度学习模型系统实时识别街道路面积水情况,对严重积水时立即抓拍告警,提醒相关人员及时处理。
近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能。随着技术的发展,多模态学习的重要性和必要性已经慢慢展现。
越来越接近毕业季了,相信很多同学都结束了论文的撰写以及论文审批,现在就坐等着毕业论文答辩和毕业典礼了!其实我也是这样的一个状态,但是期间大Boss还是会安排很多任务下来,所以最近没有频繁推送好的文章,在此向关注“计算机视觉战队”的您说一句抱歉,希望您继续关注我们、支持我们。
选自arXiv 作者:Lidong Yu 等 机器之心编译 参与:李泽南、李亚洲 由北京理工大学贾云得教授研究组提出的立体匹配新方法着重于成本聚合问题,在 KITTI 和 Scene Flow 基准测试中超越了此前业内的最佳水平。本文已提交今年 2 月举行的 AAAI 2018 大会,并成为 Spotlight poster 论文。 立体匹配(Stereo matching)是计算机视觉社区研究的一个基础问题。立体匹配的研究目标是计算由立体照相机收集的图像的视差图(disparity map)。这种视差图在
在我的上一篇文章83. 三维重建18-立体匹配14,端到端立体匹配深度学习网络之特征计算中,我为你介绍了基于深度学习的立体匹配算法的最新思想:端到端的立体匹配网络。具体来说我提到这类网络有两类形式:
代码地址:在公众号「计算机视觉工坊」,后台回复「PREDATOR」,即可直接下载。
本文提出一种用于图像修复的新型双流网络,以耦合方式进行结构约束的纹理合成,以及纹理引导的结构重建,可以更好地相互利用以获得更合理的生成。此外,为增强全局一致性,设计双向门控特征融合(Bi-GFF)模块来交换和组合结构和纹理信息,并开发上下文特征聚合(CFA)模块。CelebA、Paris StreetView 和 Places2 数据集上的定性和定量实验证明了所提出方法的优越性。
光流的概念是大佬James J. Gibson在1950年首先提出来的,是空间运动物体在成像平面上的像素运动的瞬时速度,是利用图像序列中像素的变化以及相邻帧之间的相关性,来找到上一帧跟当前帧的像素点之间存在的对应关系,从而计算出相邻帧之间像素点的运动信息的一种方法。一般而言,光流是由于场景中前景目标本身的移动、相机的运动,或者两者的共同运动所产生的。
作者:Huy Hieu Pham,Houssam Salmane,Louahdi Khoudour,Alain Crouzil,Pablo Zegers,Sergio A Velastin
睡眠阶段分类对于睡眠质量评估和疾病诊断至关重要,睡眠专家通常利用视觉检查的方式对原始睡眠信号进行特征波形的标注和人工分类,但人工标注费时费力且容易受到主观意识的影响。因此,大多数深度学习的方法为了自动化进行睡眠阶段分类,通常提取时频特征间接捕获显著性的特征波形进行分类。
在上一篇文章90. 三维重建25-立体匹配21,训练端到端的立体匹配模型的不同监督强度中,我们描述了训练端到端立体匹配网络的不同监督程度的方法,包括有监督学习、自监督学习,以及弱监督学习。我提到:
视频分类/行为识别是计算机视觉领域中非常有挑战性的课题,因为其不仅仅要分析目标体的空间信息,还要分析时间维度上的信息,如何更好的提取出空间-时间特征是问题的关键。本文总结了该领域的技术进展和相关数据集,技术进展从传统特征法到深度学习中的3DCNN,LSTM,Two-Stream等。
显著目标检测(SOD)在计算机视觉领域得到了广泛的关注。但面临低质量的深度图,现有模型的检测结果都不是很理想。为了解决这一问题,该文提出了一种新型多模态增强融合网络(EF-Net),用于有效的RGB-D显性检测。具体来说,首先仅仅利用RGB图像提示映射模块来预测提示映射,编码突出对象的粗略信息。然后利用得到的提示图经过深度增强模块来增强深度图,从而抑制噪声并锐化对象边界。最后,该文构造了分层聚合模块,用于融合增强后的深度图与RGB图像中提取的特征,以精确地检测突出对象。该文提出的EFNet利用增强和融合框架进行显着性检测,充分利用了RGB图像和深度图中的信息,有效地解决了深度图的低质量问题,显著提高了显着性检测性能。在五个广泛使用的基准数据集上的广泛实验表明,该方法在五个关键评价指标方面优于12种最先进的RGB-D显着性检测方法。
上面的结果由Mask R-CNN得到,可以看到由于边界框定位不准导致前两张图的实例掩码缺失,以及后两张图的边界框与实例掩码不统一。
深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。
今天我将以GoogleNet为例来展示如何在TensorRT中实现细粒度的Profiling并且顺带介绍一下TensorRT的16Bit推理。
图(Graph)作为一种灵活的数据结构,广泛存在于大量的实际问题当中,包括社交网络、通信网络、物流网络、疾病传播网络,乃至药物分子结构等。 近些年来,由深度学习掀起的技术革命颠覆了一个又一个领域。图作为一类重要的数据结构,自然要当仁不让,拥抱这次革命。这也自然而然地成就了图深度学习这一新兴领域。 在图深度学习中,各类图神经网络模型在各大计算机相关领域的应用都取得了巨大成功,比如数据挖掘领域中的社交网络分析任务、交通网络预测任务,以及计算机科学领域的程序分析任务等。 除此之外,图神经网络模型还为各类跨学科领域
未穿工作服识别监测系统通过Yolov+opencv 深度学习网络架构模型对现场画面中人员着装进行实时分析。未穿工作服检测报警系统实时分析和识别现场画面信息,对作业现场24小时不间断监测。当Yolov+opencv 系统检测到工人没有穿工作服时,给予预警提醒。
领取专属 10元无门槛券
手把手带您无忧上云