Facebook的慢速视频分类器AI

AiTechYun

发布于 2019-11-07 04:07:46

6850

编辑 | TGS 发布 | ATYUN订阅号

灵长类动物的视网膜神经节细胞能从感光器接收视觉信息，然后再传递到大脑，但值得注意的是，并不是所有的眼部细胞都具备这种精密的能力，科学家通过测试发现，80%的细胞只能在低频率下工作并识别出细微的细节，剩下的20%才能对快速的变化做出反应。

这种生物学上的二分法激发了Facebook人工智能研究的科学家们去追求他们所说的“慢速AI”。他们研发出了一个框架，是PyTorch框架的一个实现，名为SlowFast，可以在GitHub上使用，同时也可以使用经过训练的模型。这是一种用于视频识别的机器学习架构，他们声称，在动作分类和镜头检测方面都拥有“强大的性能”。

研究小组在一篇预印本论文中指出，慢速运动在统计上比快速运动更加常见，而且对颜色、纹理和灯光等语义的识别可以在不影响准确性的情况下缓慢刷新。另一方面，它们比主体标识发展得更快，能够在高时间分辨率下，分析已执行的动作。

“慢速”的作用有两种实现方式，其中一种以较低的帧速率和较慢的刷新速度运行，优化捕捉少量图像或稀疏帧给出的信息。另一种途径则以快速刷新速度和高时间分辨率，捕捉快速变化的运动。

研究人员断言，通过以不同的时间速率处理原始视频，较慢的路径更善于识别框架中不变或者变化缓慢的静态区域，而较快的路径则可以学会准确地推断动态区域中的操作。这两条通路的信息被融合后，用快速通路的数据，通过网络的横向连接进入慢速通路，可以使慢速路径能够感知来自快速路径的结果，并将其送到一个分类层中。

为了评估SlowFast的性能，该团队在两个流行的数据集上测试了该模型，这两个模型分别是：DeepMind的Kinetics-400和谷歌的AVA。

前者包括成千上万个YouTube上的10秒短视频，其中至少400个视频中包含了不同类别的人类行为。AVA则拥有430个带注释的15分钟YouTube视频和80个带注释的视觉动作。

SlowFast在这两个数据集上都获得了历史最佳成绩，并实现了28.3的mAP平均精度中值，研究人员在论文最后写道：“我们希望这一‘慢速’概念能促进视频识别的进一步研究……我们已经证明，通过减少通道容量，快速通道可以变得非常轻，同时还可以学习有用的视频识别时间信息。时间轴是一个特殊的维度，这篇论文主要就是对比沿着这条轴线的速度，研究了一个建筑型设计。”

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-11-05，如有侵权请联系 cloudcommunity@tencent.com 删除

腾讯云测试服务