专栏首页AI研习社Facebook 开源 SlowFast:基于双帧速率分治轻量视频识别模型

Facebook 开源 SlowFast:基于双帧速率分治轻量视频识别模型

近日,Facebook AI 宣布开源 SlowFast,一个在 CVPR 2019 上的 AVA 视频检测挑战赛中排名第一所用的模型。这一开源旨在进一步提高系统识别与分类视频内容的能力,并改善视频个性化推荐应用。

SlowFast 是一个新型视频识别方法,它可以模仿灵长类视觉中的视网膜神经运作原理,同时以慢速帧频和快速帧频提取视频中的有效信息,从而提高动作分类及动作识别效果。与其他方法相比,SlowFast 的整体计算复杂度更低,准确度更高。

Slow?Or Fast?

第一眼看到 SlowFast 时,肯定有人会纠结这个模型到底是快,还是慢呢?但其实它的名称正是源于它的实现原理,即通过两条路径——Slow 路径和 Fast 路径,同时以慢速和快速的帧速率,从视频中提取信息来改进动作分类和动作检测。因此,它既快又慢。

SlowFast 通用架构

具体而言,这两条路径由侧连接(lateral connection)进行融合。一条专注于处理可以在低帧速率下观看的类别语义(如:颜色、纹理和目标),它以低帧率运行,刷新速度缓慢,旨在捕获图像或几个稀疏帧提供的语义信息;而另一条路径则寻找在以较高帧速率显示的视频中更容易识别的快速变化的运动(如:鼓掌、挥手、摇头、走路或跳跃),它的刷新速度快、时间分辨率高,用于捕获快速变化的动作。

可尽管有两条路径,该模型的体量却很轻,只占总计算资源的 20% 左右。这是因为第二个路径通道较少,处理空间信息的能力较差,但这些信息完全可以由第一个路径以一种简单的方式来提供。

SlowFast 网络的实例化示例

SlowFast 灵感之源

正常来讲,很少有将两种完全相反的概念融合为一体的模型;但于 SlowFast 而言,这一方法在很大程度上,受到灵长类视觉系统中视网膜神经节细胞的生物学研究的启发。

研究发现,在灵长类的视觉系统中,约 80% 为是 P 细胞(P-cells),约 15-20% 是 M 细胞(M-cells)。M-cell 以较高的时间频率工作,对时间变化更加敏感,但对空间细节和颜色的感知很弱;P-cell 则提供良好的空间细节和颜色,同时它的时间分辨率较低。

SlowFast 框架正是与此类似:

  • 该模型有两条路径,分别以低时间分辨率和高时间分辨率工作;
  • Fast 路径用于捕捉快速变化的运动,但空间细节较少,类似于 M-cell;
  • Fast 路径为轻量级,类似于较小比例的 M-cell。

Facebook AI 也希望通过对这些关系的介绍,能够启发更多用于视频识别的计算机视觉模型。

SlowFast 进展

通过合理的快慢分工,SlowFast 比之前的视频识别系统都更加轻量级。目前,Facebook AI 已经在四个主要的公共基准数据集上建立了一个新的技术状态。通过分析不同速度下的原始视频,这一方法还可以使 SlowFast 网络从本质上进行分治 (Divide-and-conquer)。

每个路径都利用其在视频建模中的特殊优势,Slow 路径以每秒两帧(fps)的速度处理最初刷新为每秒 30 帧的视频片段,在这一速度下,物体或人的颜色、纹理或身份等特征也不会改变;同时 Fast 路径在相同的原始视频剪辑上运行,但是在更高的帧速率下——给定 30 fps 的镜头,该路径也可能以 16 fps 的速度处理它,这些更快的刷新速度允许更好地理解视频中正在发生的运动类型。

SlowFast 应用于视频检测

这一设置的最主要优点在于提高 Fast 通道时间建模能力的同时,也降低了 Fast 通道的信道容量,最终呈现的是一个系统的整体计算复杂度和精度比其他更高,计算量更大的算法。

令人振奋的成果

Facebook AI 在 Kinetics-400、Kinetics-600 和 Charades 数据集,以及 Ava 数据集上检测了 SlowFast 的实际能力。实验结果表明该模型在视频动作分类及检测方面性能非常强大,SlowFast 网络比预先训练的系统更加精确,包括在动力学和特性上都比最新的模型高出几个百分点:

  • 在没有使用任何预训练的情况下,在 Kinetics 数据集上实现了 79.0% 的准确率;

SlowFast 网络与当前最优模型在 Kinetics-400 数据集上的对比结果

  • 在 AVA 动作检测数据集上也实现了 28.3 mAP 的当前最佳水准,这一基于最慢速度的系统还在 CVPR 2019 上的 AVA 视频检测挑战赛中取得了第一的优秀成绩。

在 AVA 数据集上的 Per-category AP:Slow-only 基线模型 (19.0 mAP) 与对应的 SlowFast 网络 (24.2 mAP)

SlowFast 应用前景

从已有的信息来看,Facebook AI 并没有使用 SlowFast 或文中提到的公共数据集来训练生产模型,但是这一研究可以在视频分析方面有广泛的应用,包括:改进系统如何自动识别、分类视频内容,以及视频推荐等应用。

同时,在视频检测方面的进展也有利于帮助公共平台寻找和删除有害视频,也包括为视频个性化提供更好的推荐建议。

原文参考: http://t.cn/Ai1OPFAr GitHub 地址: https://github.com/facebookresearch/SlowFast 论文链接: https://arxiv.org/pdf/1812.03982.pdf

本文分享自微信公众号 - AI研习社(okweiwu),作者:杨鲤萍

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 博客 | 新的网络优化方法:随机权值平均

    在本文中,数据科学研究人员 Max Pechyonkin 讨论了最近两篇有趣的论文,它们提供了一种简单的方法,通过用一种巧妙的集成方式来提高任何给定神经网络的性...

    AI研习社
  • 博客 | 一文看懂任务型对话中的对话策略学习(DPL)

    前面写了对话系统中的SLU之领域分类和意图识别、槽填充、上下文LU和结构化LU、对话状态追踪(DST)、以及NLG,今天更新任务型对话系统中的DPL。DPL也叫...

    AI研习社
  • 百度开源移动端深度学习框架 MDL,可在苹果安卓系统自由切换

    AI研习社消息,日前,百度在 GitHub 上开源了移动端深度学习框架 mobile-deep-learning(MDL)的全部代码以及脚本,这项研究旨在让卷积...

    AI研习社
  • 深度报道:小型装配机器人渐行渐近(上)

    电子产品正在萎缩,产品更加定制化且生命周期越来越短。劳动力不足,用人成本上升。那么,制造商对此能做些什么呢? 快来看看柔性自动化。机器人正变得更便宜、更小、更精...

    机器人网
  • 最新专利:基于机器视觉的工业机器人安全系统,你造吗?

    视觉是机器人和自动化工业的使能技术。离开视觉,机器人也就只能是个不断做重复动作的呆子。这就是密歇根州Bloomfield Hills的机器视觉行业的软件和支持服...

    机器人网
  • 100 Days of SwiftUI —— Day 41:Moonshot(三)

    今天我们将通过添加两个视图以及它们之间的导航来完成Moonshot应用程序,但是在这里您将开始了解在SwiftUI中创建自定义布局所需要的内容——我们将使用Ge...

    韦弦zhy
  • Macro-frq_missing

    %frq_missing(inds=如何需要check的数据集,outds=缺失结果输出的数据集,sasver=SAS语言的版本/CN 或EN);

    Setup
  • centos使用yum时报 Error: rpmdb open failed的解决办法

    菲宇
  • Lipson:我要亲自打造一个外星人——拥有自我意识的机器

    “我想在有生之年见到一个外星人,”哥伦比亚大学创意机器实验室的机器人专家霍德·利普森(Hod Lipson)说:“我想认识一些非人类的智慧生物。”

    新智元
  • 当深度学习成为过去,迁移学习才是真正的未来?

    大牛吴恩达曾经说过:做AI研究就像造宇宙飞船,除了充足的燃料之外,强劲的引擎也是必不可少的。假如燃料不足,则飞船就无法进入预定轨道。而引擎不够强劲,飞船甚至不能...

    腾讯技术工程官方号

扫码关注云+社区

领取腾讯云代金券