图像分类研究的“层次感”

这两个月都在做图像分类方面的工作,然后看了《计算机视觉,一种现代方法》一书,对工作内容的认识更有层次感。

从「成像设备」说起

成像设备有很多种类,从动物的眼睛到视频摄像机,再到雷达望远镜,它们可以有镜头,也可以没有。

1550年,照相机中的「针孔」开始被越来越复杂的「镜头」所代替,但它仍然是一个暗箱,将照射到底板上每一个小区域的光强度记录下来。照相机都是这样,基于基本透视投影原理,建立图像坐标与世界坐标之间的关系。

人类的眼睛有视网膜,照相机的成像传感器上也有,比如全景照相机上安装了柱形的视网膜(人类视网膜的形状接近于球的表面)。视网膜上每一点记录的信号可以是离散量或连续量:它可以由单个数字组成(黑白照相机),或由若干个数字组成。如:彩色照相机的红、绿、蓝成分的强度或人眼三种类型圆锥细胞的响应;超光谱传感器的响应由许多数目的数字组成;而光谱仪由波长的连续函数组成。

物体的表面呈现或亮或暗,其影响因素有两个:它们的反射率以及接收到的光的总量。一个用来描述表面光亮度产生机理的模型通常称为「影调模型」。使用一个适当的影调模型可以解释像素的值。

「颜色」是一个丰富而复杂的体验,这种体验通常由对不同波长的光有不同反应的视觉系统所产生,产生的其他原因还包括眼球上的压力以及梦境。尽管乍看起来物体的颜色对识别物体来说是一个有用的线索,但是这一点目前还难以应用。

然后,书中给出了三个不同层次的知识:

低层视觉:使用一副图像

线性滤波

边缘检测

纹理

中层视觉

基于聚类的分割方法

基于模型拟合的分割

使用随机方法的分割与拟合

基于线性动态模型的跟踪

高层视觉:基于概率和推理的方法

利用分类器建立模板

基于模板间关系的识别

基于空间关系的几何模板

一个引起人们广泛关注的观点认为,视觉问题是一个推理问题。所谓推理问题,也就是有一些测量结果和一个模型,我们希望知道是哪些因素导致了这些测量结果。但是仍然存在一些关键的特征使视觉问题和其他的推理问题不同:

首先,前者数据量非常大;其次,不知道这些数据项中哪些部分有助于解决这个推理问题,哪些不会。例如,编写一个好的物体识别程序,其中一个较大的难点就是知道哪些像素点要识别,哪些可以忽略。

这个问题可以通过采用体现图像数据重要性质的精简表示来完成。获得这样的表示的方法称为分割、分组、感知组织或者拟合。我们用分割这个术语泛指这些行为,因为尽管技术上可能不同,但是所有这些行为的动机是一样的:得到一副图片中有用部分的一个精简的表示。要想看到一个全面的分割理论是很难的,至少有一个原因是因为哪些是感兴趣的部分取决于应用的需求。

━━━━━

我目前的工作就属于「高层视觉」的范围(不代表难易程度)。虽然该部分也包括图像特征提取等低层视觉中的图像处理与分析内容,但仍归结为高层视觉问题,一部分低层信息是推理的前提。

Pascal VOC,2005年发起的一个视觉挑战赛,可谓视觉识别类竞赛的鼻祖。这一年的最好成绩是使用了SIFT提取特征+线性SVM的方法。

在2012年深度学习在图像识别任务上大放异彩之前,词袋模型(Bag of Features),一直是各类比赛的首选方法,是VOC竞赛分类算法的基本框架,几乎所有算法都是基于词袋模型的。Bag of Features 是Bag of Words在图像识别领域的延伸,Bag of Words最初产生于自然语言处理领域,通过建模文档中单词出现的频率来对文档进行描述与表达。

Bag of Features的Features是什么,如何提取呢?

在早期的视觉特征研究中,人们基于直觉从整幅图像出发提取颜色、纹理和形状等全局特征,然后进行图像分类和搜索等任务。然而全局特征对于背景干扰、物体遮挡和成像视角等非常敏感,因而难以有效地完成复杂的视觉识别任务。

目前,图像局部不变特征(Local Invariant Feature),已成为图像特征提取的主流提取对象。局部不变特征处理图像不再局限于分割出封闭的图像局部子区域,而是通过关注图像的局部区域,并用合适的特征描述方法去描述图像局部区域,从而形成对整幅图像的内容描述,达到图像分析和理解的应用要求。

局部不变特征提取技术主要基于「视觉不变量理论」,该理论认为图像几何结构特征(边缘和纹理细节)是计算机视觉的基础,不变量是几何结构的本质描述。在图像识别中,不变量是指目标的特性在经历了如下的一个或几个变换后仍然保持不变的特征量:尺度(缩放)、平移、旋转、仿射、透视等变换。

构建局部不变特征的两个基本步骤:

1. 检测局部不变特征

常用的检测器有角点、斑块、区域三种。角点检测方法是最先形成和发展起来的检测方法,可以分为两类:一类是基于图像灰度信息;另一类是基于图像边缘信息。基于灰度的方法有Moravec、Harris、SUSAN以及基于学习的FAST等。

虽然检测方法种类很多,但检测思路却基本上一致,都是在尺度空间中构造一个用于检测特征的函数或表达式,通过对该函数极值点的分析得出图像局部结构信息。

2. 对局部不变特征进行描述,生成描述符

局部不变特征检测是通过在尺度空间中计算某些函数的极值位置来确定特征的位置和范围,可是却没有区域的方向信息。或者说,在特征检测阶段,可以获得平移、尺度等不变性,却没有旋转不变性,需要根据检测到的特征点的局部图像结构获得一个方向基准。

即获得局部不变特征后,还需要对这些特征进行描述来表征图像的内容,称为局部不变特征描述符(Local feature descriptor),是在一个已知的区域内计算各种统计值,从而形成局部不变特征描述向量。

最著名的特征点描述符是SIFT(Scale Invariant Feature Transform),在绝大多数的应用中都能取得几乎最佳的效果。SIFT是在角点位置相邻的网格上聚集而成的关于梯度位置和方向的三维直方图。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180610G0YVEU00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券