专栏首页机器学习爱好者社区腾讯优图提出ISTR:基于transformer的端到端实例分割!性能SOTA,代码已开源!

腾讯优图提出ISTR:基于transformer的端到端实例分割!性能SOTA,代码已开源!

近日,厦门大学和腾讯优图联合发布了一种基于transformer的端到端的实例分割方法ISTR:

ISTR使用ResNet50-FPN在MS COCO数据集上可达到46.8/38.6 box/mask AP,使用ResNet101-FPN可达到48.1/39.9 box/mask AP。代码已经开源在:https://github. com/hujiecpp/ISTR。在类似FPS下,ISTR模型效果超过Mask R-CNN和SOLOv2:

ISTR模型的主体网络结构如下所示,其主体思路借鉴了DETR和Sparse R-CNN,其中采用基于CNN的FPN网络作为backbone来作为特征提取器,然后定义一系列learnable query boxes,通过boxes的RoI Features和Img Features做attention,然后接三个heads来分别预测Class,Box和Mask。其训练的loss和DETR类似,采用Bipartite Matching Cost,只不过增加了mask loss部分

ISTR的训练和推理基本和Sparse R-CNN一样,因为ISTR也是采用了可学习的query boxes,训练也采用了Recurrent Refinement Strategy,区别主要在于增加了mask部分,主要流程如下:

ISTR的核心点是mask head不是直接预测一个2-D的mask,而是预测的是一个mask embedding,具体做法是基于PCA对sxs大小的mask进行降维,得到维度为l的embedding vector,虽然看起来PCA可能会损失高维信息,实际上论文中发现mask的信息主要集中在前面的主成分中:

对于Bipartite Matching Cost,ISTR相比DETR就包括了三部分

(1)matching cost for bounding boxes

(2)matching cost for classes:

(3)matching cost for mask embedding:采用cos相似度来计算

ISTR的训练loss也包括三个部分:

其中mask loss包括基于mask embeddings的L2 loss和基于2-D mask的dice loss

虽然ISTR的mask head是直接预测mask embeddings,但是从可视化的结果来看,生成的mask还是很精细的:

更多内容可以直接阅读论文:https://arxiv.org/pdf/2105.00637.pdf


·合作、交流请关注:公众号「机器学习爱好者社区」(ML_shequ)

·转载请添加微信:yimudeguo

扫描下方二维码,加入机器学习粉丝交流群!

本文分享自微信公众号 - 机器学习爱好者社区(ML_shequ),作者:我是小将

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-05-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 超越SOLO V2| ISTR:基于Transformer的端到端实例分割(文末获取论文与源码)

    在本文中提出了一种称为ISTR的实例分割Transformer,它是首个基于Transformer的端到端框架。ISTR通过预测低维Mask嵌入,并将其与Gro...

    用户3605500
  • 霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star

    自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言处理领域的主流模型。最近一段时间,Transformer 更是开启了自己的...

    机器之心
  • CVPR 2021 | 腾讯优图20篇论文入选,含人脸识别、时序动作定位、视频动作分割等领域

    计算机视觉世界三大顶会之一的CVPR 2021论文接收结果出炉!本次大会收到来自全球共7015篇有效投稿,最终有1663篇突出重围被录取,录用率约为23.7%。...

    优图实验室
  • 模型的跨界:我拿Transformer去做目标检测,结果发现效果不错

    近年来,Transformer 成为了深度学习领域非常受欢迎的一种架构,它依赖于一种简单但却十分强大的机制——注意力机制,使得 AI 模型有选择地聚焦于输入的某...

    机器之心
  • 计算机视觉中的Transformer

    将Transformer应用到CV任务中现在越来越多了,这里整理了一些相关的进展给大家。

    CV君
  • 计算机视觉中的Transformer

    将Transformer应用到CV任务中现在越来越多了,这里整理了一些相关的进展给大家。

    小白学视觉
  • 7 Papers | 腾讯王者荣耀绝悟AI;ICLR高分论文Reformer

    论文 1:Mastering Complex Control in MOBA Games with Deep Reinforcement Learning

    机器之心
  • Transformer又一城 | Swin-Unet:首个纯Transformer的医学图像分割模型解读

    在过去的几年中,卷积神经网络(CNN)在医学图像分析中取得了里程碑式的进展。尤其是,基于U形结构和skip-connections的深度神经网络已广泛应用于各种...

    用户3605500
  • 7 Papers & Radios | E2E视觉语言预训练模型SOHO;微软分层ViT模型霸榜多个CV任务

    论文 1:BART based semantic correction for Mandarin automatic speech recognition sy...

    机器之心

扫码关注云+社区

领取腾讯云代金券