首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >论文记录 - A General Framework for Object Detection

论文记录 - A General Framework for Object Detection

作者头像
caoqi95
发布2019-07-25 18:32:49
1.4K0
发布2019-07-25 18:32:49
举报

这是一篇挺老的论文了,98 年诞生的。主要是利用图片的 Haar wavelets (小波)特征 + SVM 来进行目标检测,这在当时是很 novel 的一个方法。论文中的 Haar-wavelet 特征也是 Rapid Object Detection using a Boosted Cascade of Simple Features 这篇论文中提出的 Haar 特征的前身。

从此之后,小波特征相关的变换开始主导视觉识别和目标检测领域。该类方法的本质是通过将图像从像素点转换为一组小波系数来学习。

当时目标检测面临的困境:

  • 现实世界中人脸或者人的其他特征等很难被建模,而且颜色,纹理,所处的背景环境是多变的;
  • 目标检测模型不同于模式分类模型,需要区分目标类和其他类;
  • 建立目标检测模型,主要的问题是找到合适的图像表示方法。(边缘检测提取到的特征并不能很好的定义一个类别的特征)

本篇论文主要应用提出的 Haar 小波表示方法对人脸和行人进行目标检测。

小波表征

Haar wavelet 是一种集合基函数(set basis function),它编码不同区域平均强度的差异。为了达到检测所需的空间分辨率,提高模型的表达能力,论文中引入了四重密度变换(quadruple density transform),它是 2D Haar wavelet 的扩展,产生一组完备的基函数。对于大小为

2^n
2^n

的小波,标准 Haar 变换将每个小波移位

n
n

,四重密度变换将小波在每个方向上移位

\frac{1}42^n
\frac{1}42^n

关于小波表征更具体的内容可以查看这篇论文:Pedestrian detection using wavelet templates

As motivated by the work on the template ratio, we were looking for an image representation which captures the relationship between average intensities of neighboring regions. Haar wavelet,which encode such relationships along different orientations.

由于对模板比率的研究,作者正在寻找一种图像表示方法来捕捉相邻区域和平均强度之间的关系。Haar 小波正是沿着不同方向编码这样的关系的一种方法。

上图(1)中所示就是三种不同的非标准 Haar 小波的类型,包括垂直,水平和对角方向。

学习框架

学习框架分为两个阶段:

  • Stage 1:Learning the significant basis function 此阶段先识别捕获一小部分类别结构的基函数,也就是特征提取过程。
  • Stage 2:Learning the class model 使用 SVM 分类器从基函数子集中学习出一个精确的分类模型,也就是模型学习的过程。

下面主要针对特征提取过程进行介绍。

特征提取

识别重要系数的基本分析包括两个步骤。由于不同类型系数的功率分布可能不同,第一步是计算各系数的类平均,并将其对应的类平均归一化。第二步是对所有例子的归一化系数求平均值。归一化有这样的性质 - 随机 patterns 的系数的均值为 1。如果系数的均值远远大于 1,则表明系数编码为两个区域之间的边界并与类的例子一致;同样,如果系数的均值远小于 1,则该系数编码为一个均匀区域(uniform region)。

上图展示的是对人脸进行变换及计算后的小波系数的均值。每个基函数在图中被表示为一个小方块。系数均值比较大的区域使用较暗的灰度颜色来编码,系数均值比较小的区域使用较亮的灰度颜色来编码。可以发现,不同类型的小波(垂直,水平,对角)会提取到不同的面部特征,比如眼睛,鼻子和嘴。而且使用不同的尺度(scale),提取到的特征也不同。

经过统计分析,从密集和稀疏的尺度中捕捉的重要面部特征中,导出 37 个系数作为一个集合。其中包含使用 2x2 尺度得到的 12 个垂直系数,14 个水平系数和 3 个对角系数和使用 4x4 尺度得到的 3 个垂直系数,2 个水平系数和 3 个对角系数。下图显示的就是 37 个重要的特征。

对于行人的数据集也进行类似的处理:

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.07.23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 小波表征
  • 学习框架
  • 特征提取
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档