前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >多标签图像识别发展历程(2015~2020)

多标签图像识别发展历程(2015~2020)

作者头像
雨雪霏霏
发布2021-08-19 10:35:02
1.1K0
发布2021-08-19 10:35:02
举报
文章被收录于专栏:多标签图像识别

什么是多标签图像识别?

自从深度学习兴起之后,以ImageNet数据集为代表的通用识别在精度上实现了跳跃式的显著提升,在通用识别性能逐渐“饱和”之后,研究者们将目光投向了难度更高的 细粒度图像识别多标签图像识别 。其中细粒度识别主要针对类间相似度高、粒度细的问题,而多标签识别主要针对图像内多个共存标签有依赖性、输出标签范围广的问题,简单来说就是,细粒度识别是更精细的通用识别,而多标签识别是更广泛的通用识别。 从输出标签的数量来看,通用识别和细粒度识别都是单标签识别,然而在大多数场景下,图像中都不会只有一个孤零零的类别,只是我们在标注数据集时会故意忽略非图像主体的其他类别从而作为单标签识别问题来建模,但是随着对内容理解要求的不断提高,我们越来越需要尽可能精确的识别出图像视频中的所有类别,这时就需要用多标签识别出场了。 与通用识别和细粒度识别相比,多标签识别任务本身更关注当图像中存在多个物体、多个类别标签时,如何建模不同物体、不同标签的相关性与依赖关系,这个问题在论文中也经常被称为共现依赖(label co-occurrences),当然也有一些方法关注多标签识别任务的其他性质。

下面本文会介绍部分2015年到2020年之间的经典文章,从中也能看出来步入深度学习时代后,多标签识别领域这几年的发展趋势。同时笔者在github上也维护了一个多标签图像识别的paper list,持续跟踪多标签图像识别相关方向上的研究工作,方便初涉该领域的同学快速上手,也欢迎大家一起讨论交流。

早期方法

  • N个独立二分类

将多标签识别看作是N个独立的二分类,分别去预测每个类别是多标签识别最简单的实现方法,但这种方法的问题在于,并没有考虑多标签识别这个任务本身的特性,也就是共现依赖,因此分类效果较差。

  • 2015 TPAMI HCP [1]

本文的主要思路也是将多标签识别拆解成单标签识别,首先提取出图像中的所有候选区域,然后对每个候选区域做单标签识别,所有结果经过max-pooling后得到最终的多标签预测结果。HCP思路清晰,也不依赖bounding box真值,虽然没有探索标签之间的关系,但也是一种很有效的解决方案。

HCP

  • 利用现成检测模型辅助多标签识别

后续几年有一些方法用训好的检测模型直接提取候选区域,但利用额外的检测模型并不是一种公平的对比方案,换言之,用在MS-COCO上训好的检测模型去辅助在MS-COCO上的多标签识别,多少有点本末倒置,因此这类方法本文后续不再具体介绍。

RNN-based Methods

  • 2016 CVPR CNN-RNN [2]

作者引入递归神经网络(RNN)来显式地建模标签之间的依赖关系,先将图像特征与标签特征嵌入到联合嵌入空间,然后递归神经元通过顺序连接联合嵌入空间的标签特征来对标签共现依赖建模,在每个时间步长,根据图像特征和循环神经元的输出来计算标签的概率。但是该方法需要预先定义好标签预测的顺序,本文中的预测顺序取决于数据集中标签出现的频率。

CNN-RNN

  • 2017 AAAI Order-Free RNN [3]

CNN-RNN中标签预测顺序由标签频率预先定义好,这并不能反映适当的标签依赖性。因此后续出现了几篇对标签预测顺序注重改进的文章,其中Order-Free RNN利用LSTM模型学习标签依赖性,无需预先定义预测顺序,从而减少标签顺序的约束。

Order-Free RNN

  • 2020 CVPR PLA+MLA [4]

作者认为多标签预测结果中的标签顺序并不重要,对于图片中存在的标签而言,哪个标签先预测出来都是可以的,强行学习一个固定的顺序会让训练复杂化。因此作者通过对真实标签序列重新排序使之与预测标签序列尽可能匹配从而让模型损失函数最小,文中提出了两种对应的方法分别叫做 minimal loss alignment(MLA)和predicted label alignment(PLA)。

PLA+MLA

Attention-based Methods

Attention作为一种简洁有效的处理方法,被广泛应用于识别、分割等各类视觉任务中,因此一些研究者也将attention引入多标签识别领域,用于隐式地建模不同标签之间的空间关系。不过该类方法一般比较通用,往往在其他识别任务中也会带来性能提升,同理其他识别任务中attention相关的工作在多标签识别任务上也好使,比如SENet。

  • 2017 CVPR SRN [5]

本文利用空间注意力机制来捕捉多标签识别中的空间关系,从而提升识别性能。

SRN

  • 2019 CVPR VAC [6]

本文利用图像反转后attention区域的一致性来约束网络训练,使网络具有更鲁棒的表征能力。

VAC

GCN-based Methods

多标签识别中对标签共现依赖的建模往往依赖于一些适合关系建模的网络结构,比如上文中介绍过的RNN系列。因此,图神经网络(GCN)这种可以明确建模关系的结构在计算机视觉领域逐渐兴起后,一些研究者开始将GCN引入到多标签识别任务中。

  • 2019 CVPR ML-GCN [7]

本文以所有标签的词向量为图结点,标签共现频率的统计信息作为邻接矩阵,利用图神经网络(GCN)建模标签之间的相关性,并对分类网络的特征进行加权得到最终的分类结果。该方法结构简单明了,思路清晰,改进空间大,再加上论文宣传力度大,曝光度高,后续涌现出一大批对该方法进行改进的工作,基于GCN的方法也成了近两年多标签图像识别的主流方向。

ML-GCN

  • 2019 ICCV SSGRL [8]

本文以所有标签的词向量与图像语义特征融合得到的与类别相关的图像特征作为图结点,标签共现频率的统计信息作为邻接矩阵,利用GCN来建模这些类别相关特征之间的相互关系,从而显著提升多标签识别性能。作为ML-GCN的同期工作,本文与ML-GCN都率先提出利用GCN解决多标签识别中的共现依赖问题,并且在GCN结点和邻接矩阵的构造上也有很多共通之处。

SSGRL

  • 2020 TMM TS-GCN [9]

本文在ML-GCN网络结构的基础上额外引入了利用检测模型得到的检测框,并利用GCN对不同物体的位置进行建模,辅助分类网络的预测。相比其他方法,额外引入检测模型的方法并不完全公平,不过对于业务场景是有参考价值的。

TS-GCN

  • 2020 AAAI MS-CMA [10]

本文是对ML-GCN的改进工作之一,从结构上来看主要是将GCN分支与分类分支加权的特征从pooling层后挪到了pooling层前,同时引入了attention操作与多尺度增强,并且对ML-GCN中的一些方法比如邻接矩阵的构造做了改进。

MS-CMA

  • 2020 AAAI KSSNet [11]

本文提出一种标签依赖建模方法,提出一种叠加统计标签图和知识先验标签图的操作(GConv),并在backbone的不同阶段融合GCN生成的标签结构信息。

KSSNet

  • 2021 ECCV ADD-GCN [12]

本文提出一种attention驱动的GCN网络,相比之前GCN-based的工作,主要区别在于如何构造图结点以及邻接矩阵。 对于图结点的构造,本文并没有使用标签的word embeddings,而是直接使用CNN得到的语义特征代表不同类别(Semantic Attention Module),这样对于不同的输入实例,图结点的信息也会不同。对于邻接矩阵的构造,本文并没有像之前的工作那样使用静态的邻接矩阵(比如ML-GCN是从数据集标签中统计得到的邻接矩阵),而是通过图结点自适应地学习邻接矩阵,这样每张图都会有对应的邻接矩阵,更加适应不同图片上各自的标签依赖关系,而不是整个数据集上通用的标签依赖关系。

ADD-GCN

  • 领域发展现状
    • 方法角度:多标签任务特性主要是不同物体、不同标签之间的关系建模,因此大部分方法是基于RNN、GCN、Transformer这类与关联建模相关的网络结构。但作为一个识别任务,很多其他识别任务的方法在多标签识别中也管用,比如各种attention。
    • 性能角度:主要的数据集包括MS-COCO2014,VOC2007/2012,NUS-WIDE等,其中MS-COCO是最重要的评价数据集,MS-COCO本身的难度限制了该任务性能提升的幅度。

引用文献:

[1] Wei Y, Xia W, Lin M, et al. HCP: A flexible CNN framework for multi-label image classification[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 38(9): 1901-1907.

[2] Wang J, Yang Y, Mao J, et al. Cnn-rnn: A unified framework for multi-label image classification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2285-2294.

[3] Chen S F, Chen Y C, Yeh C K, et al. Order-free rnn with visual attention for multi-label classification[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.

[4] Yazici V O, Gonzalez-Garcia A, Ramisa A, et al. Orderless recurrent models for multi-label classification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13440-13449.

[5] Zhu F, Li H, Ouyang W, et al. Learning spatial regularization with image-level supervisions for multi-label image classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5513-5522.

[6] Guo H, Zheng K, Fan X, et al. Visual attention consistency under image transforms for multi-label image classification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 729-739.

[7] Chen Z M, Wei X S, Wang P, et al. Multi-label image recognition with graph convolutional networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 5177-5186.

[8] Chen T, Xu M, Hui X, et al. Learning semantic-specific graph representation for multi-label image recognition[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 522-531.

[9] Xu J, Tian H, Wang Z, et al. Joint input and output space learning for multi-label image classification[J]. IEEE Transactions on Multimedia, 2020, 23: 1696-1707.

[10] You R, Guo Z, Cui L, et al. Cross-modality attention with semantic graph embedding for multi-label classification[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 12709-12716.

[11] Wang Y, He D, Li F, et al. Multi-label classification with label graph superimposing[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 12265-12272.

[12] Ye J, He J, Peng X, et al. Attention-driven dynamic graph convolutional network for multi-label image recognition[C]//European Conference on Computer Vision. Springer, Cham, 2020: 649-665.

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是多标签图像识别?
  • 早期方法
  • RNN-based Methods
  • Attention-based Methods
  • GCN-based Methods
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档