前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR 2024 | GLEE 华科与字节跳动联手打造全能目标感知基础模型

CVPR 2024 | GLEE 华科与字节跳动联手打造全能目标感知基础模型

作者头像
CV君
发布2024-03-25 10:46:46
2200
发布2024-03-25 10:46:46
举报

近年来,LLM在文本处理的领先地位和视觉模型如CLIP在多模态任务上优秀的泛化表现,展示了基础模型在推进多模态感知、理解、生成方面的强大潜力。

基础模型通过大规模预训练获得了强大泛化性,不断推动着整个领域的进步。我们能否构建一个针对目标感知领域的基础模型,突破训练规模限制,促进所有感知任务呢?

在这一命题上,最近的一项研究 GLEE 取得了进展。GLEE是是华中科技大学白翔教授团队与字节跳动合作提出的视觉目标感知基础模型,该模型能够接受多种视觉语言提示作为输入,在图像和视频中实现任意物体的检测、分割、与跟踪。

GLEE 通过将视觉感知任务的优化目标统一建模,在超过一千万条多源图像和视频数据上进行联合训练,实现了通用且鲁棒的目标感知能力以及开放世界的语义理解能力。它支持使用开放词表、精确的外观位置描述和多种交互方式来执行图像和视频中的目标检测、分割和跟踪,同时在保持SOTA性能的前提下实现了感知任务的全能处理。此外,GLEE还展示了对新数据和任务的零样本迁移能力,并证明了不同数据源可以相互增强。全系列模型及训练代码已完全开源!

  • 论文标题:General Object Foundation Model for Images and Videos at Scale
  • 论文地址:https://arxiv.org/abs/2312.09158
  • 项目主页:https://glee-vision.github.io/
  • 代码地址:https://github.com/FoundationVision/GLEE
  • 视频地址:https://www.bilibili.com/video/BV16w4m1R7ne/
  • Demo展示:https://huggingface.co/spaces/Junfeng5/GLEE_demo

1. 统一构架解决所有感知任务

GLEE可以处理包括开放世界的目标检测、实例分割、指代检测与分割(REC、RES)、以及交互式分割在内的目标感知任务。它的灵活性体现在能够通过任意长度的开放词表、目标属性描述、位置描述,以及交互式的point、box、mask等视觉提示来引导目标的检测和分割。此外、通过在大规模图像数据集上的训练,GLEE所提取的目标特征之间已经足够有判别性,通过无参数的匹配算法可以完成高质量跟踪。因此其通用感知能力可以被轻松扩展到视频任务上,实现开放世界的视频实例分割(VIS),视频目标分割(VOS),参考视频实例分割(RVOS)以及交互式的视频目标分割跟踪,从而一次性解决图像和视频中的几乎所有目标感知任务。

2. 超大规模感知任务训练

GLEE通过结合来自16个不同数据集的超过一千万张图片,包括精心标注的数据和高效自动标注的数据,构建了一个超大规模的多样化的训练集,是GLEE获得SOTA性能和强大泛化性的核心原因。其所提出的多粒度联合监督框架和可扩展的训练范式,支持多源数据的混合训练,简化了数据集的扩展过程。GLEE处理的数据涵盖了基于词表的目标检测、基于描述的定位、无类别的开放世界数据,以及视频数据,总计标注目标超过1.5亿个,确保了模型在各种视觉任务上的强大表现和广泛适用性。

3. GLEE 的构架

GLEE由图像编码器、文本编码器、视觉提示器和目标解码器组成。文本编码器处理与任务相关的任意描述,包括任何形式的对象类别、名称、关于对象的标题和参照表达。视觉提示器将用户输入,如交互式分割中的点、边界框或涂鸦,编码成目标对象的视觉表示。然后它们被整合到检测器中,根据文本和视觉输入提取图像中的对象。基于这种统一的设计,GLEE可以无缝统一图像和视频中的广泛目标感知任务,包括目标检测、实例分割、指代检测分割、多目标跟踪(MOT)、视频实例分割(VIS)、视频目标分割(VOS)、交互式分割和跟踪,并支持开放世界/大词汇量的图像和视频检测与分割。

4. 在保证全能性的同时达到SOTA

作为一个目标感知基础模型,GLEE可以直接应用于各种以目标为中心的图像任务,同时确保最先进的性能,无需进行微调。

GLEE也可以直接零样本泛化到一些开放词汇表的视频任务上,在TAO、BURST、LV-VIS这三个开放词汇表的跟踪数据集上,GLEE在未经过训练和微调的情况下,取得了SOTA 性能,这证明了GLEE在大规模联合训练中学习到的通用对象感知能力和强大的泛化能力。

5. 作为基础模型的潜力

作为基础模型,GLEE可以替换LISA的中使用的SAM backbone,将LLAVA输出的SEG token 送入GLEE以生成分割结果。在进行相同的训练后,替换SAM后的 LISA-GLEE 取得了与原版 LISA 使用SAM相媲美的结果,说明了GLEE可以作为基础模型为其他任务提供信息。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 统一构架解决所有感知任务
  • 2. 超大规模感知任务训练
  • 3. GLEE 的构架
  • 4. 在保证全能性的同时达到SOTA
  • 5. 作为基础模型的潜力
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档