学界 | AAAI 18论文解读:基于强化学习的时间行为检测自适应模型

AI 科技评论按:互联网上以视频形式呈现的内容在日益增多,对视频内容进行高效及时的审核也变得越来越迫切。因此,视频中的行为检测技术也是当下热点研究任务之一。本文主要介绍的就是一种比传统视频行为检测方法更加有效的视频行为检测模型。

在近期 GAIR 大讲堂举办的线上公开上,来自北京大学深圳研究生院信息工程学院二年级博士生黄靖佳介绍了他们团队在 AAAI 2018 上投稿的一篇论文,该论文中提出了一种可以自适应调整检测窗口大小及位置的方法,能对视频进行高效的检测。点击阅读原文立即查看完整视频回放。

黄靖佳,北京大学深圳研究生院信息工程学院二年级博士生。2016 年毕业于华中科技大学计算机学院信息安全专业,获学士学位。现研究方向为计算机视觉、行为检测、增强学习等。

以下是 AI 科技评论对嘉宾分享的内容回顾。

分享主题:AAAI 2018 论文解读:基于强化学习的时间行为检测自适应模型

分享提纲:

  • 行为检测任务的介绍
  • SAP模型的介绍
  • 实验效果介绍
  • 总结

分享内容:

大家好,我的分享首先是介绍一下行为检测的应用背景,接下来介绍我们团队提出的 SAP 模型,以及模型在实验数据集上的性能,最后是对本次分享的总结。

行为检测任务的介绍

一般对于视频目标行为检测任务的解决方法是:在一整段视频中,对行为可能发生的时间段做一个定位,做完定位之后,把可能发生的行为送到分类器中做分类。这就是比较常用的「两阶段方法」。

但是这种方法在解决任务时存在两个难点。

首先是对于一个没有切割过的视频,比如在图中这个视频中,所需要检测的目标是一个三级跳运动,三级跳在不同的情况下,根据人的不同,所持续的时间也是不同的。

第二个难点是,目标时间出现的位置是在视频中的任意时间点。

所以说用「两阶段方法」进行目标行为预测,会产生非常多不同尺度,不同位置 proposal。最简单的方法是用不同尺度的滑动窗口,从前到后滑动,产生非常多的 proposal,然后再做分类。这种方法虽然行之有效,但时间复杂度和计算复杂度都相当高,使得在完成这项任务时往往需要花费大量的计算资源。

SAP 模型的介绍

为了避免这种低效的检测方法,我们提出了一种可以自适应调整检测窗口大小及位置的方法,对视频进行高效的检测。

我们最开始的想法是能不能仅使用一个滑动窗口,只需要从头到尾滑动一遍就完成 proposal 产生过程呢?

这就必须要求窗口能不断地自适应地根据窗口所覆盖的内容,能够不断调节窗口的大小,最终的窗口大小能精确覆盖目标运动,从而得到检测的窗口区间。

我们使用增强学习作为背后的模型支撑来完成这样的循环过程,达到我们的目的。下面是 SAP 模型的框架图。

关于 Temporal Pooling Layer

在原有的 C3D 模型中,要求输入的视频帧是固定的,一般是 16 帧或 8 帧。以 16 帧为例,当视频帧多于 16 帧,就需要对视频帧下采样,采样成 16 帧,送到视频中进行处理,这样在采样过程中会丢失非常多细节信息,造成特征表达不准确等问题。

而我们提出的 Temporal Pooling Layer 的输入帧可以是任意长度。

我们在增强学习中的奖励设置机制。在增强学习中,对于一个 agent,如果 agent 执行了一个动作后,我们认为是执行正确的,就给一个奖励;如果认为是错的,就给一个惩罚。

SAP 模型的训练过程,可到文末观看嘉宾的视频回放,或关注嘉宾的 GitHub 地址获取相关代码。

SAP 模型的测试

实验过程

我们的实验是在 THUMOS'14 数据集展开的,用它的 validation set 训练模型,在 test set 上进行实验评估。我们使用了是以下两个衡量标准。第一个是 recall 值和平均 proposal 数量函数第二个是 recall 和 IoU。

proposal 做分类后的评判标准是:Average Precison 和 mAP

检测性能的结果

上图红色圈注的部分比较的是不同的模型,在取相同的 proposal 数量,用同样的分类器做分类,哪个模型的性能会更好。结果发现,在只有 50 个 proposal 的时候,我们的方法表现的最好。

总结

  • 首先,我们提出了 SAP 模型,能够不断自适应调整当前观测窗口大小,从而使观测窗口能够更为精确覆盖可能存在目标运动的区域。
  • 我们的方法是通过增强学习来驱动,让 agent 通过增强学习网络学习到调整策略,使它调整自身的位置和大小。
  • 在 C3D 模型中,我们还提出了 temporal pooling layer,使得模型能够处理不限于 16 帧的视频片段,并且能够获得比均匀采样所得到的特征表达更有效,更有利于做后面的视觉任务。
  • 最后,我们在 THUMOS 14 数据集上验证了我们的模型,得到了不错的结果。

代码相关资料 GitHub 地址: https://github.com/hjjpku/Action_Dection_DQN GAIR 大讲堂视频回放地址: http://www.mooc.ai/open/course/459

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-03-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

如何使用深度学习去除人物图像背景

作者:Gidi Shperber 参与:Nurhachu 、黄小天 近日,Medium 上出现了一篇题为《Background removal with dee...

4894
来自专栏机器之心

业界 | OpenAI 新研究:通过自适应参数噪声提升强化学习性能

选自OpenAI 机器之心编译 参与:黄小天、路雪、李泽南 OpenAI 的研究人员发现,改善强化学习算法参数中的自适应噪声性能可以提升性能。这种探索方式易于实...

2906
来自专栏算法+

图像去模糊算法 循序渐进 附完整代码

这样看,虽然知道是在做一个点面计算的操作,但是要具体描述卷积的用途或者原理,是有点困难的。

6753
来自专栏人工智能头条

苹果首篇AI论文SimGANs代码及详解

1955
来自专栏SeanCheney的专栏

《Scikit-Learn与TensorFlow机器学习实用指南》 第1章 机器学习概览什么是机器学习?为什么使用机器学习?机器学习系统的类型批量和线上学习基于实例vs基于模型学习机器学习的主要挑战测

---- 本书翻译已加入ApachCN的开源协作项目,见 https://github.com/apachecn/hands_on_Ml_with_Sklear...

64610
来自专栏钱塘大数据

揭秘丨反人脸识别,身份欺骗成功率达99.5%

在一些社交媒体平台,每次你上传照片或视频时,它的人脸识别系统会试图从这些照片和视频中得到更多信息。比如,这些算法会提取关于你是谁、你的位置以及你认识的其他人的数...

2571
来自专栏机器之心

教程 | 如何使用深度学习去除人物图像背景

选自Medium 作者:Gidi Shperber 机器之心编译 参与:Nurhachu 、黄小天 近日,Medium 上出现了一篇题为《Background ...

3406
来自专栏AI科技评论

深度、卷积、和递归三种模型中,哪个将是人类行为识别方面的佼佼者?

导读:2016国际人工智能联合会议(IJCAI2016)于7月9日至7月15日举行,今年会议聚焦于人类意识的人工智能。本文是IJCAI2016接收论文之一,除了...

4719
来自专栏ATYUN订阅号

【学术】使用机器学习来进行自动化文本分类

数字化已经改变了我们处理和分析信息的方式。信息的在线可用性呈指数增长。从网页到电子邮件、科学期刊、电子书、学习内容、新闻和社交媒体都充满了文本数据。其理念是快速...

3708
来自专栏机器之心

观点 | AutoML、AutoKeras......这四个「Auto」的自动机器学习方法你分得清吗?

让我们先来看一个简短的童话故事… 从前,有一个魔法师,他使用一种无人再使用的编程语言,在一种无人再使用的框架下训练模型。一天,一位老人找到他,让他为一个神秘的...

1364

扫码关注云+社区