什么促使了候选目标的有效检测?

首先,把之前推送的关于大数据问题与解决办法的内容上传给大家,供大家去学习去挖掘有用的知识。

网址:http://pan.baidu.com/s/1nvwoQ0p

密码:6a0l


今天想说的其实也是一个老一点的知识,但是读了几遍感觉灵感很大,得到了很多想法和去实践的思路,所以今天就给大家来分享下这篇经典好文。该文录用于2016年“ IEEE transactions on pattern analysis and machine intelligence”。——What makes for effective detection proposals?

阅读完全文,您会知道大概基本内容就如下所示:

  • 回顾Object Proposal(以下简称为OP)的各种方法,将其分类;
  • 论不同OP在图片被扰动之后在复现上的鲁棒性;
  • 讨论不同OP在PASCAL和ImageNet上的Recall,并提出了Average Recall(简称AR)的一种新的标准;
  • 讨论不同OP对于实际分类的性能比较(用了DPM和RCNN这两个著名detector进行比较),以及说明了AR是一个跟性能相当相关的标准。

各种OP方法的回顾

作者大致将OP方法分成了两类,一类叫grouping method,一类叫window scoring method。前者是指先将图片打散,然后再聚合的一种方法,比如selective search。后者是生成大量window并打分,然后过滤掉低分的一种方法,比如objectness。另外还有一些介乎两者之间的方法,比如multibox。

Grouping proposal methods

作者将grouping的方法继续细分为三个小类。SP,对superpixel进行聚合;GC,使用种子点然后groupcut进行分割;EC,从边缘图提取proposal。下面分别一一进行介绍:

SelectiveSearch (SP): 无需学习,首先将图片打散为superpixel,然后根据人为定义的距离进行聚合。

CPMC (GC): 随机初始化种子点,然后做graphcut进行分割,反复多次,然后定义了某个很长的特征进行排序。(所以速度超级慢)

MCG (EC): 首先用现成方法快速得到一个层次分割的结果,然后利用边缘信息进行聚合。

Window scoring proposal methods

不同于前者需要通过聚合小块来生成候选框,这里的方法是先生成候选框,然后直接打分排序来过滤掉低分的候选框。介绍两种比较出名的方法:

Bing: 训练了一个简单的线性分类器来通过类似滑窗的方式来过滤候选框,速度惊人地快。但是被其他文献攻击说分类性能不是来自于学习而是几何学。

EdgeBoxes: selective search一样,是一个不需要学习的方法,结合滑窗,通过计算窗口内边缘个数进行打分,最后排序。

Aliternate proposal methods

Multibox,目前所知唯一基于CNN提取proposal的方法,通过CNN回归N个候选框的位置并进行打分,目前在ImageNet的dectection track上应该是第一的。

Baseline proposal methods

这里用了UniformGaussianSliding WindowSuperpixels作为baseline,不是重点就不展开说了。

各种OP方法对于复现的鲁棒性的讨论

这里作者提出这样的假设:一个好的OP方法应该具有比较好的复现能力,也就是相似的图片中检索出来的object应该是具有一致性的。验证的方法是对PASCAL的图片做了各种扰动(如Figure 2),然后看是否还能检测出来相同的object的recall是多少,根据IoU的严格与否能够得到一条曲线,最后计算曲线下面积得到repeatability。

本次推送的图表很多具体请看原论文,这里直接给出大概重点和结论,Bing和Edgeboxes在repeatability上表现最好。

各种OP方法的recall

这里提出了好的OP方法应该有着较高的recall,不然就要漏掉检测的物体了。这里讨论了三种衡量recall的方式:

  • Recall versus IoU threshold:固定proposal数量,根据不同的IoU标准来计算recall
  • Recall versus number of proposal windows:跟1互补,这里先固定IoU,根据不同的proposal数目来计算recall
  • Average recall(AR):作者提出的,这里只是根据不同的proposal数目,计算IoU在0.5到1之间Recall。

数据集方面,作者在PASCAL VOC07ImagNet Detection dataset上面做了测试。

  • MCGEdgeBoxSelectiveSearch, RigorGeodesic在不同proposal数目下表现都不错。
  • 如果只限制小于1000的proposal,MCG,endresCPMC效果最好;
  • 如果一开始没有较好的定位好候选框的位置,随着IoU标准严格,recall会下降比较快的包括了Bing, Rahtu, ObjectnessEdgeboxes。其中Bing下降尤为明显;
  • AR这个标准下,MCG表现稳定;EndresEdgeboxes在较少proposal时候表现比较好,当允许有较多的proposal时候,RigorSelectiveSearch的表现会比其他要好;
  • PASCALImageNet上,各个OP方法都是比较相似的,这说明了这些OP方法的泛化性能都不错。

各种OP方法在实际做detection任务时候的效果

这里作者在OP之后接上了两种在detection上很出名的detector来进行测试,一个是文献(Training deformable part models with decorrelated features)的LM-LLDA(一个DPM变种),另外一个自然是R-CNN了,值得注意的是,这两个detector的作者都是rbg。

这里用了各种OP方法提取了1k个proposal,之后作比较。也是直接给作者结论:

如果OP方法定位越准确,那么对分类器帮助会越大,因为定位越准确,分类器返回的分数会越高:

LM-LLDAR-CNN下,使得mAP最高的前5个OP方法都是MCGSeletiveSearchEdgeBoxesRigorGeodesic,如下图。

通过分析,作者发现AR和mAP有着很强的相关性:

作者用AR作为指导去tuning EdgeBoxes的参数,然后取得了更好的mAP(提高1.7个点)。

全文的总结和讨论

总结:

  • 对于repeatability这个标准,目前的OP方法效果都一般。可能通过对噪声和扰动更加鲁棒的特征能够提高OP方法的repeatablilty。但是repeatability低不代表最后mAP就低,比如SelectiveSearch,所以最后还是看要应用场景。
  • 如果OP方法定位越准确,那么对分类器帮助会越大。所以对于OP方法来说,IoU为0.5的recall不是一个好的标准。高recall但是定位不准确,会伤害到最后的mAP
  • MCG,Seletive Search,EdgeBoxes,RigorGeodesic是目前表现最好的5个方法,其中速度以EdgeBoxesGeodesic为优。
  • 目前的OP方法在VOC 07ImageNet的表现都差不多,说明它们都有着不错的泛化性能。

讨论:

  • 如果计算能力上去了,OP还有用吗?作者认为如果运算性能允许的话,滑动窗口加上CNN等强分类器会有着更好的效果。
  • 作者观察到在目前OP中使用的特征(比如object boundary和superpixel),不会在分类器中使用;然后OP方法中除了MultiBox之外就没有其他OP有使用CNN特征。作者期待会有工作能够结合下这两者的优势。
  • 最后,作者对做了三点猜测:之后top down可能会在OP中起到更加重要的作用;以后OP和detector的联系会更加紧密;OP生成的segmentation mask会起到更加重要的作用。

原文发布于微信公众号 - 计算机视觉战队(ComputerVisionGzq)

原文发表时间:2017-07-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

开发 | 计算机视觉中,究竟有哪些好用的目标跟踪算法(下)

VOT2015竞赛 VOT2015 Challenge | Home(http://votchallenge.net/vot2015/) 如期而至,这一年有60...

5256
来自专栏专知

【明星自动大变脸,嬉笑怒骂加变性】最新StarGAN对抗生成网络实现多领域图像变换(附代码)

【导读】图像之间的风格迁移和翻译是近年来最受关注的人工智能研究方向之一,这个任务在具有趣味性的同时也是很有挑战的。相关的研究成果也层出不穷,有的甚至引起了全世界...

4749
来自专栏ATYUN订阅号

自动驾驶中机器学习算法应用大盘点

今天,机器学习算法被广泛应用于解决自动驾驶汽车制造的各种挑战问题中。人类将传感器数据处理集成到汽车的ECU(电子控制单元)中。 提高机器学习的利用率去完成新...

3584
来自专栏量子位

Kaggle优胜者详解:如何用深度学习实现卫星图像分割与识别

王新民 编译 量子位 出品 | 公众号 QbitAI 最近,Kaggle网站举办了一场在卫星图像上进行场景特征检测的比赛,数据集由英国国防科学与技术实验室(DS...

53112
来自专栏AI科技评论

王宇龙:如何通过关键数据通路去理解网络行为?

AI科技评论按:神经网络长久以来的“黑盒”属性,导致人们一直无法理解网络的内部是如何运作的,针对这个困扰已久的问题,学界主要存在三种研究方向:数据归因模式、特征...

623
来自专栏量化投资与机器学习

量化投资之机器学习应用——基于 SVM 模型的商品期货择时交易策略(提出质疑和讨论)

2016年在东证期货的量化报告里,读到一篇文章,关于量化投资策略之机器学习应用——基于 SVM 模型的期货择时交易策略 。就顺手算了一下,发现了一些问题,因此和...

5369
来自专栏人工智能LeadAI

LSTM模型在问答系统中的应用

在问答系统的应用中,用户输入一个问题,系统需要根据问题去寻找最合适的答案。 1、采用句子相似度的方式。根据问题的字面相似度选择相似度最高的问题对应的答案,但是采...

4767
来自专栏IT派

随机森林之美

导语:随机森林和决策树相比,能更好的防止过拟合。虽然每个基分类器很弱,但最后组合的结果通常很强,这也类似于:“三个臭皮匠顶个诸葛亮”的思想。对比发现Random...

4444
来自专栏人工智能

Tensorflow新手通过PlayGround可视化初识神经网络

北京 上海巡回站 | NVIDIA DLI深度学习培训 2018年1月26/1月12日 ? NVIDIA 深度学习学院 带你快速进入火热的DL领域 正文共179...

2348
来自专栏机器学习算法工程师

【TPAMI重磅综述】 SIFT与CNN的碰撞:万字长文回顾图像检索任务十年探索历程(上篇)

基于内容的图像检索任务(CBIR)长期以来一直是计算机视觉领域重要的研究课题,自20世纪90年代早期以来,研究人员先后设计了图像的全局特征,局部特征,卷积特征的...

1444

扫码关注云+社区

领取腾讯云代金券