前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯优图提出ISTR:基于transformer的端到端实例分割!性能SOTA,代码已开源!

腾讯优图提出ISTR:基于transformer的端到端实例分割!性能SOTA,代码已开源!

作者头像
lujohn3li
发布2021-05-11 10:50:05
1.2K0
发布2021-05-11 10:50:05
举报

近日,厦门大学和腾讯优图联合发布了一种基于transformer的端到端的实例分割方法ISTR:

ISTR使用ResNet50-FPN在MS COCO数据集上可达到46.8/38.6 box/mask AP,使用ResNet101-FPN可达到48.1/39.9 box/mask AP。代码已经开源在:https://github. com/hujiecpp/ISTR。在类似FPS下,ISTR模型效果超过Mask R-CNN和SOLOv2:

ISTR模型的主体网络结构如下所示,其主体思路借鉴了DETR和Sparse R-CNN,其中采用基于CNN的FPN网络作为backbone来作为特征提取器,然后定义一系列learnable query boxes,通过boxes的RoI Features和Img Features做attention,然后接三个heads来分别预测Class,Box和Mask。其训练的loss和DETR类似,采用Bipartite Matching Cost,只不过增加了mask loss部分

ISTR的训练和推理基本和Sparse R-CNN一样,因为ISTR也是采用了可学习的query boxes,训练也采用了Recurrent Refinement Strategy,区别主要在于增加了mask部分,主要流程如下:

ISTR的核心点是mask head不是直接预测一个2-D的mask,而是预测的是一个mask embedding,具体做法是基于PCA对sxs大小的mask进行降维,得到维度为l的embedding vector,虽然看起来PCA可能会损失高维信息,实际上论文中发现mask的信息主要集中在前面的主成分中:

对于Bipartite Matching Cost,ISTR相比DETR就包括了三部分

(1)matching cost for bounding boxes

(2)matching cost for classes:

(3)matching cost for mask embedding:采用cos相似度来计算

ISTR的训练loss也包括三个部分:

其中mask loss包括基于mask embeddings的L2 loss和基于2-D mask的dice loss

虽然ISTR的mask head是直接预测mask embeddings,但是从可视化的结果来看,生成的mask还是很精细的:

更多内容可以直接阅读论文:https://arxiv.org/pdf/2105.00637.pdf


·合作、交流请关注:公众号「机器学习爱好者社区」(ML_shequ)

·转载请添加微信:yimudeguo

扫描下方二维码,加入机器学习粉丝交流群!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习爱好者社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档