学界 | 何恺明等人提出新型半监督实例分割方法:学习分割Every Thing

选自arXiv

作者:Ronghang Hu 等

机器之心编译

参与:路雪、蒋思源

伯克利和 FAIR 研究人员提出一种新型实例分割模型,该模型能利用目标检测边界框学习对应的分割掩码,因此大大加强了实例分割的目标数量。这种将目标检测的知识迁移到实例分割任务的方法可能是我们以后需要关注的优秀方法,机器之心对这篇论文进行了简要地介绍,更详细的内容请查看原论文。

近来目标检测器准确度显著提升,获得了很多重要的新能力。其中最令人兴奋的一项是为每个检测目标预测前景分割掩码,即实例分割(instance segmentation)。在实践中,典型的实例分割系统只能关注小部分视觉信息,一般约为 100 个目标类别。

该限制的主要原因是顶级的实例分割算法需要强大的监督系统,而此类监督数据很难收集新的类别,且比较昂贵。相比之下,边界框标注更丰富,也没有那么昂贵。这就引出了一个问题:在不对所有类别提供完整的实例分割标注情况下,我们还可以训练高质量实例分割模型吗?该论文以此为动机,引入了一个新型部分监督实例分割任务,提出了一种用于解决该问题的新型迁移学习方法。

图 1. 训练部分监督的实例分割模型:类别子集(绿色框)在训练过程中有实例掩码标注;其他类别(红色框)只有边界框标注。上图显示的是使用 COCO 中 80 个类别的掩码标注对来自 Visual Genome 的 3000 个类别进行训练后的输出。

研究者按照下列方式构建部分监督的实例分割任务:(1)给定一个类别集,其中一小部分具备实例掩码标注,其他类别仅具备边界框标注;(2)实例分割算法利用该数据构建一个能够分割该集合中所有目标类别实例的模型。由于训练数据是强标注样本(带有掩码)和弱标注样本(只有边界框标注)的混合,该任务被认为是部分监督式的。

部分监督方法的主要优势是允许我们利用现有数据集的两种类型:大量类别具有边界框标注的数据集如 Visual Genome [19] 和少量类别具备实例掩码标注的数据集如 COCO [22],构建大规模实例分割模型。这促使研究者将顶尖的实例分割方法扩展至数千个类别,这对现实世界应用部署至关重要。

为了解决部分监督实例分割问题,研究者提出了一种基于 Mask R-CNN [15] 的新型迁移学习方法,Mask R-CNN 完美适应研究者的任务,它将实例分割问题分解为边界框目标检测和掩码预测的子任务。这些子任务由联合训练的专门网络「heads」来处理。该方法背后的理念是经过训练后,边界框头部的参数对每个物体类别的嵌入进行编码,该嵌入表征使类别的视觉信息迁移至部分监督的掩码头部。

研究者将一个用来预测类别的实例分割参数的参数化权重迁移函数设计为边界框检测参数函数,从而实现该理念的具像化。权重迁移函数可以使用带有掩码标注的类别作为监督在 Mask R-CNN 中执行端到端的训练。在推断阶段,权重迁移函数用于预测每个类别的实例分割参数,从而使模型分割所有物体类别,包括训练阶段没有掩码标注的类别。

研究者在两种设置中对该方法进行了评估。首先,使用 COCO 数据集 [22] 将部分监督实例分割任务模拟成一种在具备高质量标注和评估指标的数据集上构建量化结果的方式。具体来说,将 COCO 类别分割成带有掩码标注的子集和系统只能获取边界框标注的余子集。由于 COCO 数据集仅包含少量语义分割类别(80 个),因此定量评估是精确可信的。实验结果证明该方法在强基线上改善了结果,在没有训练掩码的类别上的 mask AP 实现了 40% 的增长。

在第二种设置中,研究者使用 Visual Genome (VG) 数据集在 3000 个类别上训练大规模实例分割模型。VG 包含大量目标类别的边界框标注,但是定量评估很有难度,因为很多类别存在语义重叠(如近义词)、标注不够详尽,造成难以度量其查准率和查全率。此外,VG 不使用实例掩码进行标注。相反,研究者使用 VG 提供大规模实例分割模型的量化输出。模型输出如图 1 和图 5 所示。

图 2. Mask^X R-CNN 方法的详细描述。Mask^X R-CNN 没有直接学习掩码预测参数 w_seg,而是使用学得的权重迁移函数 T,利用对应的检测参数 w_det 预测类别的分割参数 w_seg。在训练中,T 仅需要集 A 中类别的掩码数据,测试阶段中它可应用于集 A ∪ B 中所有类别。研究者还使用补充性(complementary)全连接多层感知机(MLP)增强掩码头部标签。

图 4. 类别不可知基线上的掩码预测(第一行)vs. Mask^X R-CNN 方法(第二行)。绿色框是集 A 中的类别,红色框是集 B 中的类别。左面两列是 A = {voc},右面两列是 A = {non-voc}。

表 2. Mask^X R-CNN 的端到端训练。如表 1 所示,研究者使用 T 的 『cls+box, 2-layer, LeakyReLU』 实现,添加 MLP 掩码层(『transfer+MLP』),遵循相同的评估协议。研究者还报告 AP50 和 AP75(在 0.5 和 0.75 IoU threshold 上评估的平均查准率),以及小(APS)、中(APM)和大(APL)目标上的 AP。对 ResNet-50-FPN 和 ResNet-101-FPN 主干网来说,在没有掩码训练数据的集 B 中的类别上,该方法显著优于基线方法。

图 5. Mask^X R-CNN 在 Visual Genom 中 3000 个类别上的掩码预测示例。绿色框是与 COCO 重叠的 80 个类别(集 A 有掩码训练数据),红色框有 COCO 中没有的 2920 个类别(集 B 没有掩码训练数据)。我们可以看到该模型在集 B 的很多类别上生成了合理的掩码预测。

论文:Learning to Segment Every Thing

论文链接:https://arxiv.org/abs/1711.10370

目前,目标实例分割的已有方法需要用分割掩码标注所有的训练样本。这一需求使得新类别的手工标注异常昂贵,也限制了实例分割模型只能识别大约 100 个有较好注释的类别。该论文的目标是提出一种新的部分监督式训练范式,加上一种全新的权重迁移函数,能够在超大分类的数据集(所有目标都有边框注释)上训练实例分割模型,只有一小部分有掩码注释。这些能力使得我们能够在 Visual Genome 数据集上训练 Mask R-CNN,使用边框注释检测、分割 3000 多种视觉概念,且在 COCO 数据集上训练的模型能使用掩码注释检测分割 80 多类目标。我们在 COCO 数据集上认真评估了提出的该方法。该方法是实例分割模型向更为广阔的理解视觉世界所迈出的第一步。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-12-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【机器学习】神经网络技术篇

在上一篇文章里,小编给大家概括地介绍了下神经网络的历史和应用。这次,小编要给大家细细讲解下神经网络的组成,和几种常见神经网络的模型及其适用领域。 基本组成 顾名...

2777
来自专栏包子铺里聊IT

经典智能算法快速入门之神经网络——技术篇

在上一篇文章里,小编给大家概括地介绍了下神经网络的历史和应用。这次,小编要给大家细细讲解下神经网络的组成,和几种常见神经网络的模型及其适用领域。 基本组成 顾名...

3899
来自专栏人工智能LeadAI

通道洗牌、变形卷积核、可分离卷积?盘点卷积神经网络中十大令人拍案叫绝的操作。

CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量。我下面会对近几年一些具有变革性的工...

3948
来自专栏PPV课数据科学社区

机器学习测试题(上)

人工智能一直助力着科技发展,新兴的机器学习正推动着各领域的进步。如今,机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统,机器学习正以不容忽视...

36412
来自专栏CreateAMind

如何理解深度学习中的deconvolution networks?

谭旭 https://www.zhihu.com/question/43609045/answer/132235276

2261
来自专栏计算机视觉战队

尺度不变人脸检测器(S3FD-Single Shot Scale-invariant Face Detector)

今天讲尺度不变人脸检测前之前,我想讲解下一位热心研究者的问题,可以简单讲解下,希望也可以帮助其他读者,谢谢! ? ? 这样的人脸尺度怎么去实现的,其实很简单,如...

6444
来自专栏企鹅号快讯

机器学习算法实战

目 录 逻辑回归算法步骤简述 选择输入函数:sigmoid函数 选择优化算法:梯度上升法 观察数据集 批梯度上升训练 随机梯度上升训练 推荐阅读时间: 10m...

2345
来自专栏SIGAI学习与实践平台

人脸检测算法综述

人脸检测是目前所有目标检测子方向中被研究的最充分的问题之一,它在安防监控,人证比对,人机交互,社交和娱乐等方面有很强的应用价值,也是整个人脸识别算法的第一步。在...

9831
来自专栏琦小虾的Binary

学习July博文总结——支持向量机(SVM)的深入理解(上)

前言 本文是参照CSDN的July大神的热门博文《支持向量机通俗导论(理解SVM的三层境界》)写的。目的是因为July大神文中说,SVM理论的理解,需要一遍一遍...

4118
来自专栏AI科技大本营的专栏

技术 | 变形卷积核、可分离卷积?卷积神经网络中十大拍案叫绝的操作

作者 | Professor ho CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量...

3275

扫码关注云+社区

领取腾讯云代金券