前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【源头活水】ICCV23|基于box prompts分割一切!OpenSeeD:简单有效的开放词表图像分割框架

【源头活水】ICCV23|基于box prompts分割一切!OpenSeeD:简单有效的开放词表图像分割框架

作者头像
马上科普尚尚
发布2023-08-29 14:35:38
3220
发布2023-08-29 14:35:38
举报

介绍一下我们中稿ICCV2023的工作OpenSeeD,我们的训练测试代码和模型已经开源:

https://github.com/IDEA-Research/OpenSeeD

论文链接:https://arxiv.org/pdf/2303.08131.pdf

图中是我们模型的输出效果,我们既可以做经典的instance, semantic, panoptic segmentation,又可以分割出从未见过的物体类别,还可以基于检测框分割出从未见过的物体并给出正确的类别,这种基于box prompts分割一切的能力我们是第一个做到的,早于SAM。

OpenSeeD是一个简单而有效的开放词表图像分割的框架,也可以理解为MaskDINO扩展到开放词表的版本。除此以外,为了扩展语义的丰富程度,我们引入O365(365类)检测数据和COCO分割(133类)一起训练(不同于MaskDINO使用O365预训练)。为了能使两个任务和词表兼容,我们解决了data gap以及task gap。最终,我们的方法在多个开放词表任务上取得了与当前sota方法x-decoder comparable甚至更好的效果,相比x-decoder用了4M人工标注的image captioning数据,我们用了0.57M的detection数据,另外我们发现,即使只用5k的o365数据也可以在开放词表任务上达到类似的效果。这说明我们的模型需要的是丰富的视觉概念(类别数),而不一定是很大的数据量。

如图2所示,过去已经有不少工作结合大量的图像文本对实现开词表检测或者分割,而我们应该是第一个把物体检测数据和全景分割数据结合在一起联合训练的工作,并且证明是可行有效的,算是填补了这块空白。

下图是模型的overview,左半部分做的是generic segmentation,为了解决task gap(O365只有前景,而COCO有前景和背景),我们把前景和背景的预测解耦开,右半部分是conditional prediction部分,可以通过GT box预测mask,为了解决data gap,我们可以通过右半部分为O365打标签。

以下是我们的实验结果,我们用较少的检测数据(相比于其他sota方法),在多个zeroshot分割任务上达到或超越了sota方法X-Decoder,GLIPv2等,尤其在SeginW任务(大量没见过的类别)上取得了远超X-Decoder的效果。

除此以外,当我们fintune到其他数据集时,都取得了远超baseline的性能,在COCO和ADE20K的全景分割以及ADE20K和Cityscapes的实例分割上取得了SOTA的表现。

总结一下,OpenSeeD作为一个强大的open-set segmentation方法,可以分割出大量从未见过的物体,在各项open-seth和close-set指标上都取得了SOTA。而且通过引入O365检测任务来提升open-set语义能力,训练代价相对其他open-set方法较小。

代码语言:javascript
复制
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
ACL 2023 | 信息减加法:基于特征去噪和主题增强的多模态关系抽取
StreamPETR——更快更强! 纯视觉感知与激光雷达终有一战之力!
ICCV2023 | 遥感旋转目标检测新SOTA!
ICCV 2023 | PointCLIP V2:结合CLIP和GPT的3D开放世界分类、分割网络
ICCV2023|动态蛇形卷积(Dynamic Snake Convolution)用于管状结构分割
ICCV 2023 | 人体动作预测新范式——HumanMAC
机器文本检测,文本水印 A Watermark for Large Language Models
ICLR23 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
结合符号性记忆,清华等提出ChatDB,提升大模型的复杂推理能力
CVPR 2023|Point-NN:首次实现0参数量、0训练的3D点云分析
清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!
CVPR 2023 | 3D循环视频构建
CVPR 2023 | 利用时序注意力单元实现高效视频预测
CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架
ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册
CVPR 2023 | 会模仿笔迹的AI,为你创造专属字体
SIGIR 2023 | DiffRec: 扩散推荐模型
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-08-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档