首先,把之前推送的关于大数据问题与解决办法的内容上传给大家,供大家去学习去挖掘有用的知识。
网址:http://pan.baidu.com/s/1nvwoQ0p
密码:6a0l
今天想说的其实也是一个老一点的知识,但是读了几遍感觉灵感很大,得到了很多想法和去实践的思路,所以今天就给大家来分享下这篇经典好文。该文录用于2016年“ IEEE transactions on pattern analysis and machine intelligence”。——What makes for effective detection proposals?
阅读完全文,您会知道大概基本内容就如下所示:
作者大致将OP方法分成了两类,一类叫grouping method,一类叫window scoring method。前者是指先将图片打散,然后再聚合的一种方法,比如selective search。后者是生成大量window并打分,然后过滤掉低分的一种方法,比如objectness。另外还有一些介乎两者之间的方法,比如multibox。
作者将grouping的方法继续细分为三个小类。SP,对superpixel进行聚合;GC,使用种子点然后groupcut进行分割;EC,从边缘图提取proposal。下面分别一一进行介绍:
SelectiveSearch (SP): 无需学习,首先将图片打散为superpixel,然后根据人为定义的距离进行聚合。
CPMC (GC): 随机初始化种子点,然后做graphcut进行分割,反复多次,然后定义了某个很长的特征进行排序。(所以速度超级慢)
MCG (EC): 首先用现成方法快速得到一个层次分割的结果,然后利用边缘信息进行聚合。
不同于前者需要通过聚合小块来生成候选框,这里的方法是先生成候选框,然后直接打分排序来过滤掉低分的候选框。介绍两种比较出名的方法:
Bing: 训练了一个简单的线性分类器来通过类似滑窗的方式来过滤候选框,速度惊人地快。但是被其他文献攻击说分类性能不是来自于学习而是几何学。
EdgeBoxes: 跟selective search一样,是一个不需要学习的方法,结合滑窗,通过计算窗口内边缘个数进行打分,最后排序。
Multibox,目前所知唯一基于CNN提取proposal的方法,通过CNN回归N个候选框的位置并进行打分,目前在ImageNet的dectection track上应该是第一的。
这里用了Uniform,Gaussian,Sliding Window和Superpixels作为baseline,不是重点就不展开说了。
各种OP方法对于复现的鲁棒性的讨论
这里作者提出这样的假设:一个好的OP方法应该具有比较好的复现能力,也就是相似的图片中检索出来的object应该是具有一致性的。验证的方法是对PASCAL的图片做了各种扰动(如Figure 2),然后看是否还能检测出来相同的object的recall是多少,根据IoU的严格与否能够得到一条曲线,最后计算曲线下面积得到repeatability。
本次推送的图表很多具体请看原论文,这里直接给出大概重点和结论,Bing和Edgeboxes在repeatability上表现最好。
这里提出了好的OP方法应该有着较高的recall,不然就要漏掉检测的物体了。这里讨论了三种衡量recall的方式:
数据集方面,作者在PASCAL VOC07和ImagNet Detection dataset上面做了测试。
各种OP方法在实际做detection任务时候的效果
这里作者在OP之后接上了两种在detection上很出名的detector来进行测试,一个是文献(Training deformable part models with decorrelated features)的LM-LLDA(一个DPM变种),另外一个自然是R-CNN了,值得注意的是,这两个detector的作者都是rbg。
这里用了各种OP方法提取了1k个proposal,之后作比较。也是直接给作者结论:
如果OP方法定位越准确,那么对分类器帮助会越大,因为定位越准确,分类器返回的分数会越高:
在LM-LLDA和R-CNN下,使得mAP最高的前5个OP方法都是MCG,SeletiveSearch,EdgeBoxes,Rigor和Geodesic,如下图。
通过分析,作者发现AR和mAP有着很强的相关性:
作者用AR作为指导去tuning EdgeBoxes的参数,然后取得了更好的mAP(提高1.7个点)。
总结:
讨论: