首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OPPO研究院行为识别技术新进展:结合前景分支模型,提高真实复杂场景人体行为识别能力

OPPO研究院智能感知与交互研究部近期在国际顶级计算机视觉会议CVPR的多项比赛中获得领先成绩,本文将对其中一项研究成果进行概要性介绍。在论文《Visual Localization Using Semantic Segmentation and Depth Prediction》中,研究团队为视频行为识别提出了全新的工作流程,极大地提高了处理效率与识别精度。

1 背景

行为检测识别是计算机视觉近些年的一个重要发展方向,从基于Kinetics的trimmed activity recognition 任务,到基于AVA的spatial-temporal action localization任务,逐步往更细致化、实用化的方向发展,核心聚焦于识别何时何地发生了什么行为。本次ActivityNet Task D ActEV SDL, 属于真实场景的行为识别,主要基于MEVA数据进行研究。

目前在spatial-temporal action localization问题上,比较主流的方法是先单独提取人体检测结果,将视频输入3D Conv模型,在最后的feature map上结合检测结果进行特征提取。在AVA(Atomic Visual Actions)数据库中定义的行为都是原子级的,持续时间短,因此用一帧的检测结果就能抽取对齐的行为特征。

然而在真实场景MEVA数据库上,主要会面临如下新问题:

  1. 原始视频分辨率高,人体尺寸小,为了保证召回,不能对图像进行缩放预处理,全图抽取3D Conv特征计算复杂度极高。
  2. MEVA定义的行为非原子级别,行为持续时间不固定,人体框移动范围大,无法用单帧检测结果准确描述特征。
  3. 行为定义复杂,涉及人体行为,车辆运动行为,人车交互行为。
  4. 场景多样性,包含室内、室外、人流高密度等复杂场景。

2 方法

ActEV SDL是ActivityNet20 guest task,由美国标准局NIST主办,需要参赛者提交整套软件系统,从而保证结果公平性、可复现,这里从系统框架开始介绍整体解决方案。

系统框架:

上图是我们的系统框架,检测跟踪用于提取人体和车辆tracklet;候选生成模块用来处理原始tracklet结果,生成后续行为分类所需的固定长度切片及人车交互片段;行为分类模块基于tracklet切片,裁剪局部范围上下文区域,结合检测结果及3D Conv进行分类;结果融合模块将结果切分的proposal结果再进行融合,形成最终结果。本工作主要聚焦于行为分类,后面介绍行为分类主体网络。

主体网络:

首先我们将行为识别任务分成人相关19类、车相关6类以及人车交互相关8类,总共三个分类模型。

其次,我们基于tracklet切片结果,设计了上下文区域选取逻辑,保证两个条件:第一,选取区域在整个视频片段中固定,而非随着人体位置变动而偏移;第二,包含一定背景区域,这对于一些交互性行为类别很有帮助。最终的选取原则是,基于tracklet切片中间帧的中心位置为区域中心,裁剪的长宽为中间帧检测长宽最大值的两倍。后续实验结果证明,该上下文区域选取有较好的效果。

我们的3D Conv模型类似于SlowFast的结构,但对两个分支都进行了修改以适应MEVA数据行为的特点:低帧率的SlowPath,在最后一层特征上不进行检测框的特征提取,以保留所有上下文信息;高帧率的FastPath在最后feature map上结合时域对齐后的多帧检测结果,经过multi-frame RoiAlign,提取到了multi-frame feature再concatenate进行分类,充当了一个前景分支的作用。这样的好处是例如骑自行车、进出门等行为类别,检测框在短时间内移动得非常明显,基于单帧抽取的feature存在明显的不对齐问题,因此multiframe特征能更好地对行为进行描述。分类实验结果也表明这个操作在MEVA上优势明显。

3 效果

上图是分类模块的实验结果,可以从人体19分类的任务结果看出,多帧对齐特征的优势明显,尤其在开关门、进出场景、骑自行车等类别。

上图是NIST测试集上最终的指标结果,PARTIAL AUDC*是评价指标,我们一共提交了两个版本的软件解决方案,一个采用Ensemble策略以及5FPS的检测频率,另一个未采用Ensemble以及稍低的检测FPS,两者在运行时间上有较大变化,在指标上仅有一个点的差异。

该比赛吸引了全球范围很多行为识别方面的顶级研究机构,例如UCF、CMU、UMD、Purdue、IBM等,最终OPPO取得了第三的成绩。

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/PxNP9IeWyJVlNdakk8b0
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券