首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

高效率的目标检测网络RON

目前基于深度神经网络的图像物体检测框架主要分为两个流派:基于区域的方法(Region-based)和不基于区域(Region-free)的方法。两种方法各有优势和劣势,那么能否开发一个结合两种方法的优势并消除其主要缺点的框架?清华大学孔涛团队等在CVPR 2017上发表了题为“RON: Reverse Connection with Objectness Prior Networksfor Object Detection ”的论文,研究设计了RON图像物体检测网络框架,利用反向连接、目标先验等策略将基于区域法和不基于区域法融合起来,实现了快速高效的目标检测。

创新点

主流方法中,基于区域的方法可以剔除图片中的大多数背景,因此目标检测的搜索空间很少,但网络训练时间较长。代表性框架为Fast R-CNN(见推送:用目标检测与语义分割联合行人检测)。

不基于区域的方法使用全卷积网络(FCN),从像素一直处理到候选框坐标,因此计算效率高,但需要大量正负样本做训练。代表性框架为YOLO(见推送:快速图像多目标检测算法——YOLO9000)。

为了将这两种方法的优势相结合,作者在两个地方做出了创新:

一、多尺度对象定位(Multi-scale Object Localization)

由于待检测的物体尺度各异且可能出现在图像的各个位置,因此需要考虑成千上万个具有不同位置/尺度/方位的区域,这就是图像检测中的多尺度对象定位。不基于区域的方法将所有的对象都在固定的特征图下进行检测,但因此其针对特定尺度对象检测的优化变得很困难。

为此作者提出反向连接(Reverse Connection),不同尺度的物体将在其相应的网络尺度上被检测到,且更容易优化。

图1 作者提出的反向连接结构

反向连接让下一层通过反卷积和前一层的卷积结果建立起联系。相比于只使用一层固定的特征图进行目标检测,反向连接允许使用多个特征图表达,更有效地检测多种不同尺度下的目标。更重要的是,这种反向连接是可以更新参数的,前一层可以很有效地丰富语义信息。

二、负空间挖掘(Negative Space Mining)

由于待检测目标和非检测目标的样本之间的比例大多严重不平衡,所以需要对样本对象中的非检测目标进行有效剔除,这就是负空间挖掘。

基于区域的方法为此引入了区域建议网络(RPN,Region Proposal Networks)来处理这个不平衡的问题。但多出的网络带来了不小的重复计算,因此检测效率不高。

为此作者提出了目标先验(Objectness Prior)。通过增加目标先验来引导搜索以减少搜索空间。

图2 作者提出的目标先验

通过计算生成目标先验图,其通道为10(2个长宽比,5个不同尺度)。这样就只需要在特征图上判断有没有相应的目标,大幅度减少了搜索。如图2计算得到的目标先验图分别为a-d,其中a,b分别代表两种不同尺度的沙发,c代表棕色狗,d代表斑点狗。可以发现通过目标先验特征图可以很明显地反映检测区域有没有对应目标。

而最重要的是,通过在随后的训练中设定阈值就可以大大减少训练样本的搜索空间,尤其可以减少可以负样本。

作者在多尺度对象定位和负空间挖掘两个方面分别提出了反向连接(Reverse Connection)和目标先验(Objectness Prior)两种方法,因此作者将该网络称为RON(Reverse Connection withObjectness PriorNetwork)

网络训练与检测效果

作者先进行目标先验的训练,选择正负样本比例为1:3。随后在整体目标检测训练时候,首先根据设定的目标先验图阈值剔除部分样本,随后在剩下的样本中选择所有的正样本,负样本随机采样,同时保证1:3的比例。为了避免对特定目标的尺寸过拟合,样本做了水平翻转和多尺度变换两项数据增强策略。

作者在PASCAL VOC 2007,PASCAL VOC 2012标准数据集中进行测试。总体来看,当训练样本的数据集越大,难度越大时,作者的RON网络就越有更优异的表现。不仅如此,作者的RON网络在相同数量数据集的测试中,比 Faster R-CNN 快 3 倍。

编者认为

编者认为,作者设计的RON网络兼具了基于区域法的高搜索效率优势和不基于区域法的高检测效率优势,而城市植被在街景图像中呈现的尺度各异,这使得RON网络非常适合用于提取街景图像中的城市植被进行城市植被的量化研究。

此外对于RON网络本身,作者在目标先验策略中所计算的目标先验图,其思想接近于利用数个分类器对物体尺度进行分类,但由于作者所进行的尺度分类不是自适应的,这就产生了如图2中同一个沙发被划分到了a和b两个尺度中,产生了重复计算。因此未来可以进一步设计自适应的图像尺度分类器,这样就可以减少在这一阶段可能产生的重复计算,从而进一步提升图像物体检测的效率。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180203G05FF700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券