专栏首页我爱计算机视觉CVPR 2019 Oral | 视觉识别新范式:开放世界下的大规模长尾识别

CVPR 2019 Oral | 视觉识别新范式:开放世界下的大规模长尾识别

上周一篇发布于arXiv的CVPR 2019 Oral论文引起了广泛的关注,来自中国香港中文大学与加州大学伯克利分校的研究学者重新思考了真实世界的视觉识别类别分布的本质,提出了一种全新的视觉识别新范式:开放世界下的大规模长尾识别,并提出了应对此问题的算法,取得了很不错的效果,并开源了代码。本文是论文原作者对该工作的介绍,欢迎大家Follow。

论文作者信息:

Ziwei Liu*, Zhongqi Miao*, Xiaohang Zhan, Jiayun Wang, Boqing Gong, Stella X. Yu, Large-Scale Long-Tailed Recognition in an Open World, CVPR 2019 Oral. (CUHK & UC Berkeley)

感谢各位作者的优秀工作~

引言

我们所置身的视觉世界在本质上是长尾(long-tailed)开放(open-ended)的:(1)我们日常生活中遇到的物体类别频率通常都符合长尾分布,包含一些经常出现的通用类别和更多较少出现的稀有类别。(2)在不断探索这个开放世界的过程中,我们还会一直遇到各种各样全新的视觉概念。

问题

尽管我们在真实自然场景下遇到的视觉数据分布是一个包含“头部类别”(head class,经常出现的通用类别),“尾部类别”(tail class,较少出现的稀有类别)和“开集类别”(open class,全新的视觉概念)的连续光谱,但是当今的计算机视觉领域仅仅关注于这个光谱中的一个方面,无法全面衡量一个视觉系统的真正性能。比如,大规模图像识别仅仅关注于“头部类别”,而小样本学习仅仅关注于“尾部类别”,如图1所示。

图1:在本文中,我们提出一个新的视觉识别范式——“开放长尾识别”(open long-tailed recognition, OLTR)。这个新的视觉识别范式融合了现有计算机视觉中的非平衡数据分类(imbalanced classification),小样本学习(few-shot learning)和开集识别等任务(open-set recognition)。

在本文中,我们提出一个新的视觉识别范式——“开放长尾识别”(open long-tailed recognition, OLTR)。这个视觉识别范式更符合我们在真实自然场景下遇到的数据分布。在此范式下,视觉识别系统需要面临以下挑战:(1)对于“尾部类别”的鲁棒性。因为“尾部类别”通常只包含1~20个训练样本,所以此时需要视觉系统能够迁移从“头部类别”学到的知识。(2)对于“开放类别”的敏感性。在训练观察不足的情况下,视觉系统需要有区分“尾部类别”和“开放类别”的能力。(3)对于所有类别的均衡处理。一个良好的视觉系统需要在所有类别上取得性能提升,而不能随着训练的进行而遗忘关于某一些类别的知识。

方法

为了解决这些挑战,我们提出一种融合了记忆模块的元学习网络——动态元嵌入(dynamic meta-embedding)。首先,我们通过卷积神经网络从输入图片中得到一个直接观察特征(direct feature)。然后,我们从学习得到的视觉记忆库(visual memory)中引入记忆联想特征(memory feature)。最后,我们通过比较元嵌入与视觉记忆之间的可达性(reachability calibration)来进行动态调整。

图2:动态元嵌入(dynamic meta-embedding)包含三个主要模块:直接观察特征(direct feature),记忆联想特征(memory feature)和可达性标定(reachability calibration)。

结果

我们提出的动态元嵌入(dynamic meta-embedding)方法在“头部类别”,“尾部类别”和“开集类别”都取得均衡的性能提升,如图3所示。

图3:我们提出的动态元嵌入(dynamic meta-embedding)在所有类别上都取得了均衡的性能提升 。

总结

在本文中,我们提出了一个面向真实自然场景下的全新视觉识别范式——“开放长尾识别”(open long-tailed recognition, OLTR)。这个新的视觉识别范式融合了现有计算机视觉中的非平衡数据分类(imbalanced classification),小样本学习(few-shot learning)和开集识别等任务(open-set recognition)。我们相信OLTR可以更全面客观地衡量视觉识别系统的发展,并为计算机视觉走向真实自然场景打下坚实基础。论文、数据集和代码均已开源如下,希望能够帮助各位研究者在这个方向上继续探索和拓展。

论文:

https://arxiv.org/abs/1904.05160

项目主页:

https://liuziwei7.github.io/projects/LongTail.html(欢迎给大佬Star!)

数据集:

https://drive.google.com/open?id=1j7Nkfe6ZhzKFXePHdsseeeGI877Xu1yf

代码:

https://github.com/zhmiao/OpenLongTailRecognition-OLTR

论文、数据、代码下载:

在我爱计算机视觉公众号对话界面回复“OLTR“,即可收到下载地址。

本文分享自微信公众号 - 我爱计算机视觉(aicvml),作者:Ziwei Liu等&CV君

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 计算机视觉研究入门全指南

    CV君
  • IEEE TMM 2020:细化超分辨网络,解决上采样引起的振荡

    图像成像设备在拍照图像时常遭受到天气、硬件和环境等影响,导致拍摄出图像出现严重的失真,这严重限制后续高水平计算机视觉任务进行。现已有深度学习方法为了保证效率,一...

    CV君
  • 京东发布FastReID:目前最强悍的目标重识别开源库!

    京东AI研究院近日发布了基于PyTorch的目标重识别(ReID)开源库 FastReID ,其不仅对相关领域的研究有帮助,而且对工程部署有优化,在各大数据集上...

    CV君
  • MVVM、RxJava、Retrofit三剑合璧,事半功倍

    MVVM和MVP是当前比较流行的两种应用开发架构,两者各有优缺点。目前公司所有Android项目用的都是MVP架构,所以这篇文章我们可以一起来深入了解一下。当然...

    曲水流觞
  • day105-Linux安装Python3&ipython&juypter&virtualenvwrapper

    少年包青菜
  • 【AI核心技术】课程七:计算机视觉深入认知

    UAI与PaddlePaddle联合推出的【AI核心技术掌握】系列课程持续更新中!

    用户1386409
  • Java常用工具类之IO流工具类

    package com.wazn.learn.util; import java.io.Closeable; import java.io.IOExcept...

    二十三年蝉
  • MySQL UNSIGNED和ZEROFILL属性

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    SmileNicky
  • 学界 | 精细识别现实世界图像:李飞飞团队提出半监督适应性模型

    机器之心
  • 学习C+应该学什么?学完C+要收获什么?

    本节课我们来讨论学习C++的目的和学完后应该掌握些什么。对了,我们在讲述这些疑问时,你可以先看《C++ Primer Plus 第六版》这本书,先开始熟悉一些基...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券