【图像分类】细粒度图像分类是什么，有什么方法，发展的怎么样

用户1508658

发布于 2019-07-30 13:05:36

3.8K0

文章被收录于专栏：有三AI有三AI

欢迎大家来自《图像分类》专栏，今天讲述细粒度图像分类问题，这是计算机视觉领域一项极具挑战的研究课题，本文介绍了细粒度图像分类算法的发展现状、相关数据集和竞赛，供大家参考学习。

作者 | 郭冰洋

编辑 | 言有三

1 简介

细粒度图像分类是在区分出基本类别的基础上，进行更精细的子类划分，如区分鸟的种类、车的款式、狗的品种等，目前在工业界和实际生活中有着广泛的业务需求和应用场景。

细粒度图像相较于粗粒度图像具有更加相似的外观和特征，加之采集中存在姿态、视角、光照、遮挡、背景干扰等影响，导致数据呈现类间差异性大、类内差异性小的现象，从而使分类更加具有难度。

细粒度图像分类研究，从提出到现在已经经历了一段较长时间的发展。面对这一挑战，人们在粗粒度图像分类模型的基础上进行了更加细致的研究和改进，大致可以分为基于特征提取的传统算法和基于深度学习的算法。早期的基于特征提取的算法，由于特征的表述能力有限，分类效果也往往面临很大的局限性。近年来，随着深度学习的兴起，神经网路强大的特征提取能力促进了该领域的快速进步。

2 基于特征提取的传统算法

1、局部特征

早期基于人工特征的细粒度图像分类算法，其研究重点为图像的局部特征，一般先从图像中提取某些局部特征，然后利用相关编码模型进行特征编码。

由于局部特征选择过程繁琐，表述能力有限，其自身也存在一定缺陷，即忽略了不同局部特征之间的关联以及与全局特征之间的位置空间关系，因此并没有取得令人满意的结果。

2、视觉词包

为了进一步提升分类精度，相关人员在局部特征的基础上又进一步提出视觉词包（BOVW）的概念。通过统计图像的整体信息，将量化后的图像作为视觉单词，通过视觉单词分布来描述图像内容。

词包模型与一系列特征提取算法进行融合，虽然取得了一定的进展，但距离实际应用要求还有很远的距离。同时，构建词包的过程非常复杂，需要额外的处理工作。

3、特征定位

局部特征和视觉词包都没有构建与全局特征之间的关联，只在图像的部分区域进行语义挖掘，因此人们提出对特征进行定位，如利用关键点的位置信息发现最具价值的图像信息。

通过位置信息的辅助，分类精度也得到了一定的提高，但是位置信息的获取需要高精度的算法来完成，同时还需要精细的人工标注，其成本更大。

3 基于深度学习的算法

随着深度学习的兴起，从神经网络中自动获得的特征，比人工特征具有更强大的描述能力，在一定程度上极大地促进了细粒度图像分类算法的发展。

根据监督方式的不同，该类算法可以分为强监督和弱监督两种类别。

1、强监督细粒度图像分类

强监督利用bounding box和key point等额外的人工标注信息，获取目标的位置、大小等，有利于提升局部和全局之间的关联，从而提高分类精度。

Part-based R-CNN基于R-CNN算法完成了局部区域的检测，利用约束条件对R-CNN提取到的区域信息进行修正之后提取卷积特征，并将不同区域的特征进行连接，构成最后的特征表示，然后通过SVM分类器进行分类训练，该算法在CUB-200数据集上取得了73.9%的精度。

Pose-normalized CNN首先对每一张图片进行局域位置的检测，然后将检测框内的图像进行裁剪，从而提取不同层次、不同位置的图像，再对提取到的图像块进行姿态对齐送入CNN，将得到的特征拼接后利用SVM分类器进行分类，该算法在CUB-200数据集上取得了75.7%的精度。

Multi-proposal Net则通过Edge Box Crop方法获取图像块，并引入关键点及视觉特征的输出层，进一步强化了局部特征与全部信息直接的位置关联，该算法在CUB-200数据集上取得了80.3%的精度。

2、弱监督细粒度图像分类

弱监督即仅利用图像的类别标注信息，不使用额外的标注。该方法又可以总结为图像过滤和双线性网络两类。

(1) 图像过滤

图像过滤的思想和强监督中利用bounding box的方法类似，只不过仅借助于图像的类别信息过滤图片中与物体无关的模块，其中比较有代表性的即Two Attention Level算法。

Two Attention Level利用物体级和局部级的信息，通过Search Selective算法过滤掉无关背景，然后将过滤掉的背景送入CNN网络进行训练，得到物体级别的分类结果，随后通过聚类算法将不同位置的特征继续区分，并将不同区域的特征拼接后送入SVM分类器进行训练，该算法在CUB-200数据集上取得了75.7%的精度。

在此方法的灵感上，后续诸多算法开始研究如何更好、更有效地对图像无关背景完成过滤，从而获取到更有效的目标特征信息。

(2) 双线性网络

人在认知物体和事物时，往往需要完成对其特征的理解以及类别名称的记忆，为了使神经网络具有更强大的学习能力，B-CNN创新性的提出了一个全新的概念。