前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Facebook的慢速视频分类器AI

Facebook的慢速视频分类器AI

作者头像
AiTechYun
发布于 2019-11-07 04:07:46
发布于 2019-11-07 04:07:46
6850
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号
编辑 | TGS 发布 | ATYUN订阅号

灵长类动物的视网膜神经节细胞能从感光器接收视觉信息,然后再传递到大脑,但值得注意的是,并不是所有的眼部细胞都具备这种精密的能力,科学家通过测试发现,80%的细胞只能在低频率下工作并识别出细微的细节,剩下的20%才能对快速的变化做出反应。

这种生物学上的二分法激发了Facebook人工智能研究的科学家们去追求他们所说的“慢速AI”。他们研发出了一个框架,是PyTorch框架的一个实现,名为SlowFast,可以在GitHub上使用,同时也可以使用经过训练的模型。这是一种用于视频识别的机器学习架构,他们声称,在动作分类和镜头检测方面都拥有“强大的性能”。

研究小组在一篇预印本论文中指出,慢速运动在统计上比快速运动更加常见,而且对颜色、纹理和灯光等语义的识别可以在不影响准确性的情况下缓慢刷新。另一方面,它们比主体标识发展得更快,能够在高时间分辨率下,分析已执行的动作。

“慢速”的作用有两种实现方式,其中一种以较低的帧速率和较慢的刷新速度运行,优化捕捉少量图像或稀疏帧给出的信息。另一种途径则以快速刷新速度和高时间分辨率,捕捉快速变化的运动。

研究人员断言,通过以不同的时间速率处理原始视频,较慢的路径更善于识别框架中不变或者变化缓慢的静态区域,而较快的路径则可以学会准确地推断动态区域中的操作。这两条通路的信息被融合后,用快速通路的数据,通过网络的横向连接进入慢速通路,可以使慢速路径能够感知来自快速路径的结果,并将其送到一个分类层中。

为了评估SlowFast的性能,该团队在两个流行的数据集上测试了该模型,这两个模型分别是:DeepMind的Kinetics-400和谷歌的AVA。

前者包括成千上万个YouTube上的10秒短视频,其中至少400个视频中包含了不同类别的人类行为。AVA则拥有430个带注释的15分钟YouTube视频和80个带注释的视觉动作。

SlowFast在这两个数据集上都获得了历史最佳成绩,并实现了28.3的mAP平均精度中值,研究人员在论文最后写道:“我们希望这一‘慢速’概念能促进视频识别的进一步研究……我们已经证明,通过减少通道容量,快速通道可以变得非常轻,同时还可以学习有用的视频识别时间信息。时间轴是一个特殊的维度,这篇论文主要就是对比沿着这条轴线的速度,研究了一个建筑型设计。”

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
快慢结合效果好:FAIR何恺明等人提出视频识别SlowFast网络
作者:Christoph Feichtenhofer、Haoqi Fan、Jitendra Malik、Kaiming He
机器之心
2018/12/26
1.2K0
何恺明等最新突破:视频识别快慢结合,取得人体动作AVA数据集最佳水平
到底 SlowFast 网络是怎样的设计、有什么特征、效果如何,下面就一起来看一下~
新智元
2018/12/29
1.2K0
Facebook 开源 SlowFast:基于双帧速率分治轻量视频识别模型
SlowFast 是一个新型视频识别方法,它可以模仿灵长类视觉中的视网膜神经运作原理,同时以慢速帧频和快速帧频提取视频中的有效信息,从而提高动作分类及动作识别效果。与其他方法相比,SlowFast 的整体计算复杂度更低,准确度更高。
AI研习社
2019/11/11
2.8K0
Facebook 开源 SlowFast:基于双帧速率分治轻量视频识别模型
纯Deep Learning干货 | 快慢网络用于视频识别(文末有源码)
这个技术是由何恺明等人提出的,主要用于视频识别的SlowFast网络,提出要分开处理空间结构和时间事件。该网络模型在视频动作分类及检测方面性能很强大,在没有使用任何预训练的情况下,在Kinetics数据集上实现了当前最好的性能水平,在AVA动作检测数据集上也实现了28.3mAP的当前最优异性能表现。
计算机视觉研究院
2019/05/06
8670
纯Deep Learning干货 | 快慢网络用于视频识别(文末有源码)
经典重温:FAIR提出SlowFast,用双分支非对称网络处理不同采样率的视频!代码开源!
在本文中,作者提出了用于视频识别的SlowFast网络,本文的模型涉及以低帧率运行的Slow pathway,以捕获空间语义,以及以高帧率运行的Fast pathway,以高时间分辨率捕获运动。通过减少通道容量,可以使Fast pathway变得非常轻巧,但可以学习有用的时间信息以进行视频识别。本文的模型在视频中实现了动作分类和检测的强大性能,并且是由于本文的SlowFast概念的贡献而做出了巨大的改进。本文提出的SlowFast网络在多个视频动作识别的benchmark上(Kinetics, Charades and AVA),实现了SOTA的性能。
CV君
2021/12/27
1.2K0
经典重温:FAIR提出SlowFast,用双分支非对称网络处理不同采样率的视频!代码开源!
slowfast神经网络简介
检测并归类图像中的物体是最广为人知的一个计算机视觉任务,随着ImageNet数据集挑战 而更加流行。不过还有一个令人恼火的问题有待解决:视频理解。视频理解指的是对视频片段进行分析并进行解读。虽然有一些最新的进展,现代算法还远远达不到人类的理解层次。
用户1408045
2019/03/12
1.6K0
slowfast神经网络简介
时隔两年,Facebook又出视频理解利器
视频作为当今最被广为使用的媒体形式,已逐渐超过文字和图片占据了人们更多的浏览时间。这使得视频理解变得尤为重要。各大互联网公司与顶尖高校纷纷绞尽脑汁,竞相研究前沿视频理解模型与算法。在谷歌,脸书,亚麻,Open-MM Lab等分别祭出各家杀器之后,脸书人工智能实验室在PySlowFast之后时隔两年,携PyTorchVideo重入战场。
AI科技评论
2021/07/27
6600
时隔两年,Facebook又出视频理解利器
【技术综述】视频分类/行为识别研究综述,从数据集到方法
视频分类/行为识别是计算机视觉领域中非常有挑战性的课题,因为其不仅仅要分析目标体的空间信息,还要分析时间维度上的信息,如何更好的提取出空间-时间特征是问题的关键。本文总结了该领域的技术进展和相关数据集,技术进展从传统特征法到深度学习中的3DCNN,LSTM,Two-Stream等。
用户1508658
2019/08/26
2K0
【技术综述】视频分类/行为识别研究综述,从数据集到方法
让手机跑SOTA模型快8倍!Facebook AI开源最强全栈视频库:PyTorchVideo!
视频已逐渐超过文字和图片,可以说成为了现在使用最广的媒体形式,同时也占据了用户更多的浏览时间,这就使得视频理解变得尤为重要。
新智元
2021/07/29
7100
VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022
代码和预训练权重已经在Github开源:https://github.com/MCG-NJU/VideoMAE
新智元
2023/01/08
8540
VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022
视频分类哪家强?高效NeXtVLAD在飞桨!
视频分类是指给定一个视频片段,对其中包含的内容进行分类。视频分类任务中,又以视频动作分类最为热门(如做蛋糕,打篮球,亲吻,喝酒,哭泣)等(详见下节数据集介绍),毕竟动作本身就包含“动”态的因素,不是“静“态的图像所能描述的,因此也是最体现视频分类功底的。
用户1386409
2019/08/20
2.3K0
视频分类哪家强?高效NeXtVLAD在飞桨!
Facebook开发AI,从视频中提取人物角色
还记得那些流行于90年代的FMV游戏吗?那些游戏将预先录制的剪辑与动画雪碧图和3D模型混合在一起,而Facebook正设法让它们重新流行起来。
AiTechYun
2019/05/13
1.2K0
Facebook开发AI,从视频中提取人物角色
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
Transformer在自然语言处理方面取得了极大成功,而ViT将Transformer改进到了一系列计算机视觉任务上,包括图像分类、对象检测、语义分割等,同样取得了令人印象深刻的结果。而训练一个高效的ViT通常需要大规模的有监督数据集,预训练的ViT通过使用数亿张标记图像来获得良好的性能。对于视频任务中的Transformer,它们通常基于图像任务中的Transformer,并且在很大程度上依赖于来自大规模图像数据的预训练模型(例如在ImageNet上进行预训练)。
用户1324186
2024/05/31
2790
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
谷歌发布电影动作数据集AVA,57600精准标注视频教AI识别人类行为
【新智元导读】教机器理解视频中的人的行为是计算机视觉中的一个基本研究问题,谷歌最新发布一个电影片段数据集AVA,旨在教机器理解人的活动。 该数据集以人类为中心进行标注,包含80类动作的 57600 个视频片段,有助于人类行为识别系统的研究 数据集地址:https://research.google.com/ava/ 论文:https://arxiv.org/abs/1705.08421 教机器理解视频中的人的行为是计算机视觉中的一个基本研究问题,对个人视频搜索和发现、运动分析和手势界面等应用十分重要。尽管在
新智元
2018/03/21
1.5K0
谷歌发布电影动作数据集AVA,57600精准标注视频教AI识别人类行为
训练速度远超3D CNN,提速3倍!Facebook首发「时空版」Transformer
TimeSformer即Time-Space Transformer,这是第一个完全基于Transformer的视频架构,近年来已经成为许多自然语言处理(NLP)应用程序的主要方法,包括机器翻译和通用语言理解。
新智元
2021/03/24
1K0
训练速度远超3D CNN,提速3倍!Facebook首发「时空版」Transformer
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
最近看了下几篇动作识别,视频理解的文章,在这里记下小笔记,简单过一下核心思想,以便后续查阅及拓展使用。
SIGAI学习与实践平台
2018/12/28
1.7K0
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
机器之心专栏 机器之心编辑部 复旦大学、微软 Cloud+AI 的研究者将视频表征学习解耦为空间信息表征学习和时间动态信息表征学习,提出了首个视频 Transformer 的 BERT 预训练方法 BEVT。该研究已被 CVPR 2022 接收。 在自然语言处理领域,采用掩码预测方式的 BERT 预训练助力 Transformer 在各项任务上取得了巨大成功。近期,因为 Transformer 在图像识别、物体检测、语义分割等多个计算机视觉任务上取得的显著进展,研究人员尝试将掩码预测预训练引入到图像领域,通
机器之心
2022/04/24
8270
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
视频数据训练太慢?试试UT-Austin&FAIR提出的多重网格训练,加速4.5倍,还能提点!
训练深度视频模型比训练其对应图像模型慢一个数量级。训练慢导致研究周期长,阻碍了视频理解研究的进展。按照训练图像模型的标准做法,视频模型训练使用了固定的mini-batch形状,即固定数量的片段,帧和空间大小。
CV君
2022/01/20
1K0
视频数据训练太慢?试试UT-Austin&FAIR提出的多重网格训练,加速4.5倍,还能提点!
TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!
本文介绍刚刚被 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用的一篇文章:Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition,会议版本 AdaFocus V1/V2/V3 分别发表于 ICCV-2021 (oral)、CVPR-2022、ECCV-2022。
机器之心
2025/02/03
690
TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!
Facebook AI&牛津提出带“轨迹注意力”的Video Transformer,在视频动作识别任务中性能SOTA!
在视频Transformer中,时间维度通常与两个空间维度(W和H)的处理方式相同。然而,在对象或摄影机可以移动的场景中,在第t帧中的一个位置处的物体可能与在第t+k帧中的该位置的内容完全无关。因此,应该对这些时间相关性对应进行建模,以便于了解动态场景。
CV君
2022/03/30
8980
Facebook AI&牛津提出带“轨迹注意力”的Video Transformer,在视频动作识别任务中性能SOTA!
推荐阅读
快慢结合效果好:FAIR何恺明等人提出视频识别SlowFast网络
1.2K0
何恺明等最新突破:视频识别快慢结合,取得人体动作AVA数据集最佳水平
1.2K0
Facebook 开源 SlowFast:基于双帧速率分治轻量视频识别模型
2.8K0
纯Deep Learning干货 | 快慢网络用于视频识别(文末有源码)
8670
经典重温:FAIR提出SlowFast,用双分支非对称网络处理不同采样率的视频!代码开源!
1.2K0
slowfast神经网络简介
1.6K0
时隔两年,Facebook又出视频理解利器
6600
【技术综述】视频分类/行为识别研究综述,从数据集到方法
2K0
让手机跑SOTA模型快8倍!Facebook AI开源最强全栈视频库:PyTorchVideo!
7100
VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022
8540
视频分类哪家强?高效NeXtVLAD在飞桨!
2.3K0
Facebook开发AI,从视频中提取人物角色
1.2K0
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
2790
谷歌发布电影动作数据集AVA,57600精准标注视频教AI识别人类行为
1.5K0
训练速度远超3D CNN,提速3倍!Facebook首发「时空版」Transformer
1K0
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
1.7K0
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
8270
视频数据训练太慢?试试UT-Austin&FAIR提出的多重网格训练,加速4.5倍,还能提点!
1K0
TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!
690
Facebook AI&牛津提出带“轨迹注意力”的Video Transformer,在视频动作识别任务中性能SOTA!
8980
相关推荐
快慢结合效果好:FAIR何恺明等人提出视频识别SlowFast网络
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文