专栏首页专知【干货】结合单阶段和两阶段目标检测的优势:基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势:基于单次精化神经网络的目标检测方法

【导读】近日,针对目标检测中单阶段和两阶段方法分别存在准确度和速度瓶颈的问题,来自中科院自动化所、中国科学院大学和GE Global Research的学者发表论文提出基于单次精化神经网络的目标检测方法。其方法包括两个互相连接的模块,即锚窗精化模块和目标检测模块。锚窗精化模块旨在过滤不好的目标候选框并粗略的调整锚框位置。目标检测模块通过一个转移连接使用锚窗精化模块中的特征进行最后的检测。在PASCAL VOC 2007,PASCAL VOC 2012和MS COCO上进行的大量实验表明,本文方法能够高效地达到最先进的检测精度。代码已开源。

论文:Single-Shot Refinement Neural Network for Object Detection

▌摘要:



对于目标检测,两阶段的方法(例如Faster R-CNN)已达到最高准确度,而单阶段方法(例如SSD)具有高效率的优点。为了继承两者的优点,克服它们的缺点,本文提出了一种称为RefineDet的新型单次检测器,其精度比两个阶段的方法高,并且保持了单阶段方法的高效率。 RefineDet由两个相互连接的模块组成,即锚框精化模块和目标检测模块。具体而言,前者旨在

(1)滤除不合适的锚框以减少分类器的搜索空间

(2)粗略地调整锚框的位置和大小为随后的回归器提供更好的初始化。

后一模块将精化的锚框作为前者的输入,进一步改进回归和预测多类标签。同时,作者设计了一个转移连接块来转移锚框精化模块中的特征,以预测目标检测模块中物体的位置、大小和类别标签。 多任务损失函数使本文能够以一种端到端的方式来训练整个网络。 在PASCAL VOC 2007,PASCAL VOC 2012和MS COCO上进行的大量实验表明,RefineDet能够高效地达到最先进的检测精度。代码可在https://github.com/sfzhang15/RefineDet 获取。

▌引言:



近年来,随着深度神经网络(DNN)的发展,目标检测已经取得了显着的进展。 现有的DNN检测器可以分为两类:

(1)两阶段方法

(2)单阶段方法

在两阶段方法中,首先生成一组稀疏的候选目标框,然后对它们进行进一步的分类和回归。两个阶段的方法已经在几个具有挑战性的基准数据集上取得了最佳表现,包括PASCAL VOC和MS COCO等。

单阶段方法通过对位置,尺度和长宽比进行规则和密集采样来检测目标。这样做的主要优点是计算效率高。但是,它的检测精度通常落后于两阶段的方法,其中一个主要原因是由于类别失衡问题。

单阶段方法中的一些最近的方法旨在解决类别不平衡问题,以提高检测精度。 Kong等人使用卷积特征的目标性先验约束来显著减少目标的搜索空间。Lin等人通过重塑标准的交叉熵损失来解决类别失衡的问题,从而把训练集中在一些稀疏的例子上,降低分配给容易分类样本的损失。Zhang等人设计了一个max-out标签机制,以减少类别不平衡造成的错误判断.

图1:RefineDet的体系结构。 为了更好的可视化,只显示用于检测的图层。 青瓷平行四边形表示与不同的特征层关联的精致的锚框。 星星代表中心定义的锚框,这是不经常显示在图像上。

在作者看来,当前最先进的两阶段方法,比如FasterR-CNN,R-FCN 和FPN ,比单阶段方法有三个优点,具体如下:

(1)采用基于采样启发式的两阶段结构处理类别失衡;

(2)使用两步级联来回归目标框参数;

(3)使用两阶段特征来描述目标。

在这项工作中,本文设计了一个新颖的目标检测框架,称为RefineDet,继承了两种方法(即单阶段和两阶段方法)的优点并克服了其缺点。 它通过使用两个互连模块(见图1),即锚框细化模块(ARM)和目标检测模块(ODM),改进了单阶段方法的架构。具体而言,ARM被设计为(1)识别并移除负锚框以减小分类器的搜索空间,以及(2)粗略地调整位置和锚框的尺寸以为随后的回归器提供更好的初始化。 ODM以精化后的锚框作为输入,进一步提高回归和预测多类标签。 如图1所示,这两个互连模块模仿两级结构,从而继承了上述三个优点,以高效率产生精确的检测结果。另外,本文设计了一个传输连接模块(TCB)来传输ARM中的特征用以预测ODM中目标的位置、大小和类别标签。 多任务损失函数使本文能够以一种端到端的方式来训练整个网络。

在PASCAL VOC 2007,PASCAL VOC 2012和MS COCO基准数据集的大量实验表明,RefineDet优于最先进的方法。具体来说,在VGG-16网络上,VOC 2007和2012的mAP达到85.8%和86.8%。 同时,它胜过了之前公布的单阶段和两阶段方法的最好结果,采用ResNet-101在MS COCO test-dev上实现41.8%AP的。 另外,RefineDet的时间效率高,当输入尺寸为320×320和512×512时,在NVIDIA Titan X GPU上的运行速度为40.2 FPS和24.1 FPS。

这项工作的主要贡献总结如下。

(1)引入了一个由两个互连模块组成的新型单阶段目标检测框架,即ARM和ODM。 这导致性能比两阶段方法更好,同时保持单阶段方法的高效率。

(2)为了保证有效性,作者设计了TCB来传递ARM中的特征,以处理更具挑战性的任务,即在ODM中预测准确的目标位置,尺度和类别标签。

(3)RefineDet达到最新的通用目标检测成果(即PASCAL VOC 2007 ,PASCAL VOC 2012 和MS COCO )。

▌模型简介:



RefineNet的损失函数分为两个部分,即ARM部分的loss和ODM部分的loss。对于ARM,作者对每个锚框赋予一个二值类别标签(是否是物体)并回归其位置得到精化的锚框。在此之后,负置信度小于一定阈值的锚框送到ODM来进一步预测类别和准确的目标位置和尺度。根据上述定义,损失函数如下:

这里p,x,c,t分别表示第i个锚框的物体性概率、精化后的坐标、预测的类别标签和最终预测的坐标。

▌实验结果



表1是在 PASCAL VOC dataset上检测结果

表2是在MS COCO test-dev set的检测结果。

表3是不同设计的效果

表4为在PASCAL VOC dataset的检测结果。

图3为RefineDet512在PASCAL VOC 2007 test set的结果。

图4为RefineDet512在PASCAL VOC 2012 test set的结果。

图5为RefineDet512在MS COCO test-dev set的结果。

▌结论:



在本文中,作者提出了一个基于单阶段神经网络的检测器,它由两个相互连接的模块组成,即ARM和ODM。ARM旨在过滤出负锚框以减少分类器的搜索空间,并且粗略地调整锚框的位置和大小,以便为后续的回归器提供更好的初始化,而ODM则将精细的锚框作为的输入来回归准确的目标位置和尺度,并预测相应的多类标签。整个网络都是基于多任务损失进行端到端的训练。作者对PASCAL VOC 2007,PASCAL VOC 2012和MS COCO数据集进行了多次实验,证明了RefineDet能够高效地达到最先进的检测精度。未来,作者计划使用RefineDet来检测其他特定类型的目标,例如行人,车辆和面部,并在RefineDet中引入注意机制进一步提高性能。

参考链接:

https://arxiv.org/abs/1711.06897

https://github.com/sfzhang15/RefineDet

本文分享自微信公众号 - 专知(Quan_Zhuanzhi),作者:专知内容组(编)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-01-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【专知荟萃02】自然语言处理NLP知识资料大全集(入门/进阶/论文/Toolkit/数据/综述/专家等)(附pdf下载)

    【导读】主题荟萃知识是专知的核心功能之一,为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华(Awesome)知识资料收录整理,使得...

    WZEARW
  • 【深入浅出】一篇超棒的机器学习入门文章

    【链接】http://www.cnblogs.com/subconscious/p/4107357.html 在本篇文章中,我将对机器学习做个概要的介绍。本文的...

    WZEARW
  • 等你在2118:探索机器学习算法生命周期

    【导读】1月22日,统计学家Venkat Raman发布了一篇比较有意思的博文,作者探讨了到2118年,即未来一百年中机器学习中一些算法可能的兴衰存亡。具体分析...

    WZEARW
  • GitHub排名前20的Pandas, NumPy 和SciPy函数

    大数据文摘
  • 机器学习与深度学习中的数学知识点汇总

    本文列出的数学知识点已经写成了《机器学习的数学教程》,以后有机会的话可能会出版,以帮助大家学习。

    小白学视觉
  • 三张图读懂机器学习 :基本概念、五大流派与九种常见算法

    机器学习正在进步,我们似乎正在不断接近我们心中的人工智能目标。语音识别、图像检测、机器翻译、风格迁移等技术已经在我们的实际生活中开始得到了应用,但机器学习的发展...

    小莹莹
  • 三张图读懂机器学习:基本概念、五大流派与九种常见算法

    选自PwC 作者:Alan Morrison、Anand Rao 机器之心编译 参与:吴攀、晏奇 机器学习正在进步,我们似乎正在不断接近我们心中的人工智能目标。...

    机器之心
  • 机器学习入门基础(三)

    机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。正是基于机器学习技术的应用,数据才能发挥其魔力。大数据的核心是利...

    长风破浪
  • 11月6日排序函数,匿名函数,回调函数,递归函数, zip函数

    ##### 排序sort, sorted的区别: list.sort(func=None, key=None, reverse=False(or Tru...

    武军超
  • 【云加小程序2018年4月】更新日志

    用户1745481

扫码关注云+社区

领取腾讯云代金券