前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR清华大学研究新成果,高效视觉目标检测框架RON

CVPR清华大学研究新成果,高效视觉目标检测框架RON

作者头像
数据派THU
发布2018-01-29 17:48:01
6850
发布2018-01-29 17:48:01
举报
文章被收录于专栏:数据派THU数据派THU

来源:新智元

作者:孙涛,孙富春等

编译:熊笑

本文长度为2200字,建议阅读4分钟

本文为你介绍高效视觉目标检测框架RON。

[ 导读 ]当前最好的基于深度网络的目标检测框架可以分为两个主要方法流派:基于区域的方法(region-based)和不基于区域(region-free)的方法。两种方法各有优势和劣势。一项由清华大学和英特尔中国研究院的研究者共同参与的研究结合了以上两种方法的优点,提出了一个有效、高效的通用对象检测框架 Ron。研究设计了反向连接,使网络能够检测多层 CNN 中的对象;提出了 objectness prior 来引导目标对象搜索;利用多任务损失函数优化整个网络,这样网络就能直接预测最终检测结果。在测试中,RON 实现了最先进的对象检测性能。论文已经被 CVPR 2017 接收。

一项由清华大学计算机系智能技术与系统国家重点实验室、清华国家信息实验室、清华大学计算机科学与技术系、英特尔中国研究院、清华大学电子工程系的研究人员共同参与的关于高效视觉目标检测的研究已经被 CVPR 2017 接收。论文题目是 RON: Reverse Connection with Objectness Prior Networks for Object Detection。研究者包括孔涛、孙富春、Anbang Yao、刘华平、Ming Lu 和陈玉荣。

基于深度网络的目标对象检测可以分为 region-based 和 region-free 两种方法

目标对象检测领域正在取得重大进展,这主要得益于深度网络。当前最好的基于深度网络的目标检测框架可以分为两个主要方法流派:

  • 基于区域的方法(region-based)
  • 不基于区域(region-free)的方法

基于区域的方法将对象检测任务分为两个子问题:第一阶段,将一个专用的候选区域生成网络(region proposal generation network)嫁接到可以生成高质量候选框的深度卷积神经网络(CNN)上;然后,在第二阶段,一个区域性的子网(region-wise subnetwork)被设计来分类和改进这些候选框。通过使用非常深的 CNN ,Fast R-CNN 工作流程最近在主流对象检测基准上显示出了高精度。

Region proposal 阶段可以拒绝大多数背景样本,因此对象检测的搜索空间大大减少。多阶段训练过程一般是开发用于区域候选生成和后检测的联合优化。在 Fast R-CNN 中,区域性子网反复评估成千上万个 region proposal,以给出检测分数。在 Fast R-CNN 工作流程下,Faster R-CNN 与检测网络共享全图像卷积特征,实现几乎零成本的 region proposal。

最近,R-FCN 试图通过添加敏感位置的分数图,使 Faster R-CNN 的 unshared per RoI 计算可共享。然而,R-FCN 仍然需要区域候选网络产生的 region proposal。为了确保检测精度,所有方法都将图像的大小调整到足够大的尺寸。在训练和推理时间内,将图像投喂给深度网络时,会有资源和时间的消耗。例如,使用 Faster R-CNN 预测(将约 5GB GPU 内存用于 VGG-16 网络)每个图像通常需要 0.2 s。

另一个解决方案是不基于区域(region-free)的方法。这些方法将对象检测视为一次性(a single shot)问题,使用全卷积网络(FCN),从图像像素一直处理到边界框坐标。这些检测器的主要优点是效率高。从 YOLO 开始,SSD 试图用多层深度 CNN 处理物体检测问题。

使用低分辨率输入,SSD 检测器可以获得最先进的检测结果。然而,这些方法的检测精度仍有改进的余地:(a)没有 region proposal,检测器必须在检测模块就抑制所有的负候选框。这将增加对检测模块进行训练的难度;(b)YOLO 用最顶端的CNN 层检测物体,没有深入探索不同层的检测能力。 SSD 尝试通过添加前一层的结果来提高检测性能。然而,SSD 仍然受困于 small instance 的问题,主要是由于中间层的信息有限。这两个主要瓶颈影响了方法的检测准确性。

是否能够结合两种方法的优势,并消除其缺点?

这两个解决方案的成功,也引出了一个关键问题:是否可能开发一个能够巧妙地结合两种方法的优势并消除其主要缺点的良好框架?通过弥合基于区域的和不基于区域的方法之间的 gap,研究者对这一问题进行了回答。为了实现这一目标,研究者关注两个基本问题:

  • 多尺度对象定位。各种尺度的物体可能出现在图像的任何位置,因此应考虑成千上万个具有不同位置/尺度/方位的区域。先前的研究表明,多尺度表征将显著改善各种尺度的物体检测。然而,这些方法总是在网络的一层检测到各种尺度的对象。利用研究者提出的反向连接,对象将在其相应的网络尺度上被检测到,这更容易优化;
  • 负空间挖掘(Negative space mining)。对象和非对象样本之间的比例严重不平衡。因此,对象检测器应该具有有效的负挖掘策略。为了减少对象搜索空间,研究者在卷积特征图上创建了 objectness prior,并在训练阶段用检测器联合优化。

因此,研究者提出了 RON(Reverse connection with Objectness prior Networks)对象检测框架,将基于区域和不基于区域的方法的优点联系起来。

上图是 RON 对象检测总览。给定一张输入图像,网络首先计算骨干网络的特征。然后:

  • 添加反向连接;
  • 生成 objectness prior;
  • 在相应的 CNN 尺度和位置上检测物体。

上图是生成自特定图像的 objectness prior。在此例中,沙发表现为(a)和(b),棕色的狗表现为(c),斑点狗表现为(d)。在 objectness prior 的引导下,网络生成了检测结果。

更多根据图像生成的 Objectness Prior 图

摘要

我们提出了 RON,一个有效、高效的通用对象检测框架。我们的想法是巧妙地结合基于区域(region-based,例如 Faster R-CNN)和不基于区域(region-free,例如 SSD)这两种方法的优点。在全卷积架构下,RON 主要关注两个基本问题:(a)多尺度对象定位,(b)负样本挖掘。为了解决(a),我们设计了反向连接,使网络能够检测多层 CNN 中的对象。为了处理(b),我们提出了 objectness prior,显著减少对象搜索空间。我们通过多任务损失函数联合优化了反向连接、objectness prior 和对象检测,因此RON 可以直接预测各种特征图所有位置的最终检测结果。

在PASCAL VOC 2007,PASCAL VOC 2012 和 MS COCO 基准测试的大量实验证明了 RON 的出色性能。具体来说,使用 VGG-16 和低分辨率 384×384 输入,网络在 PASCAL VOC 2007 上获得 81.3% mAP,在 PASCAL VOC 2012 数据集上获得80.7% mAP。数据集越大,难度越大,优势就越明显。在 MS COCO 数据集上的结果就证明了这一点。测试阶段使用 1.5G GPU 内存,网络速度为 15 FPS,比 Faster R-CNN 计数器快 3 倍。

论文地址:https://arxiv.org/abs/1707.01691

编辑:文婧

校对:谭佳瑶

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-07-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一项由清华大学计算机系智能技术与系统国家重点实验室、清华国家信息实验室、清华大学计算机科学与技术系、英特尔中国研究院、清华大学电子工程系的研究人员共同参与的关于高效视觉目标检测的研究已经被 CVPR 2017 接收。论文题目是 RON: Reverse Connection with Objectness Prior Networks for Object Detection。研究者包括孔涛、孙富春、Anbang Yao、刘华平、Ming Lu 和陈玉荣。
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档