近年来,LLM在文本处理的领先地位和视觉模型如CLIP在多模态任务上优秀的泛化表现,展示了基础模型在推进多模态感知、理解、生成方面的强大潜力。
基础模型通过大规模预训练获得了强大泛化性,不断推动着整个领域的进步。我们能否构建一个针对目标感知领域的基础模型,突破训练规模限制,促进所有感知任务呢?
在这一命题上,最近的一项研究 GLEE 取得了进展。GLEE是是华中科技大学白翔教授团队与字节跳动合作提出的视觉目标感知基础模型,该模型能够接受多种视觉语言提示作为输入,在图像和视频中实现任意物体的检测、分割、与跟踪。
GLEE 通过将视觉感知任务的优化目标统一建模,在超过一千万条多源图像和视频数据上进行联合训练,实现了通用且鲁棒的目标感知能力以及开放世界的语义理解能力。它支持使用开放词表、精确的外观位置描述和多种交互方式来执行图像和视频中的目标检测、分割和跟踪,同时在保持SOTA性能的前提下实现了感知任务的全能处理。此外,GLEE还展示了对新数据和任务的零样本迁移能力,并证明了不同数据源可以相互增强。全系列模型及训练代码已完全开源!
GLEE可以处理包括开放世界的目标检测、实例分割、指代检测与分割(REC、RES)、以及交互式分割在内的目标感知任务。它的灵活性体现在能够通过任意长度的开放词表、目标属性描述、位置描述,以及交互式的point、box、mask等视觉提示来引导目标的检测和分割。此外、通过在大规模图像数据集上的训练,GLEE所提取的目标特征之间已经足够有判别性,通过无参数的匹配算法可以完成高质量跟踪。因此其通用感知能力可以被轻松扩展到视频任务上,实现开放世界的视频实例分割(VIS),视频目标分割(VOS),参考视频实例分割(RVOS)以及交互式的视频目标分割跟踪,从而一次性解决图像和视频中的几乎所有目标感知任务。
GLEE通过结合来自16个不同数据集的超过一千万张图片,包括精心标注的数据和高效自动标注的数据,构建了一个超大规模的多样化的训练集,是GLEE获得SOTA性能和强大泛化性的核心原因。其所提出的多粒度联合监督框架和可扩展的训练范式,支持多源数据的混合训练,简化了数据集的扩展过程。GLEE处理的数据涵盖了基于词表的目标检测、基于描述的定位、无类别的开放世界数据,以及视频数据,总计标注目标超过1.5亿个,确保了模型在各种视觉任务上的强大表现和广泛适用性。
GLEE由图像编码器、文本编码器、视觉提示器和目标解码器组成。文本编码器处理与任务相关的任意描述,包括任何形式的对象类别、名称、关于对象的标题和参照表达。视觉提示器将用户输入,如交互式分割中的点、边界框或涂鸦,编码成目标对象的视觉表示。然后它们被整合到检测器中,根据文本和视觉输入提取图像中的对象。基于这种统一的设计,GLEE可以无缝统一图像和视频中的广泛目标感知任务,包括目标检测、实例分割、指代检测分割、多目标跟踪(MOT)、视频实例分割(VIS)、视频目标分割(VOS)、交互式分割和跟踪,并支持开放世界/大词汇量的图像和视频检测与分割。
作为一个目标感知基础模型,GLEE可以直接应用于各种以目标为中心的图像任务,同时确保最先进的性能,无需进行微调。
GLEE也可以直接零样本泛化到一些开放词汇表的视频任务上,在TAO、BURST、LV-VIS这三个开放词汇表的跟踪数据集上,GLEE在未经过训练和微调的情况下,取得了SOTA 性能,这证明了GLEE在大规模联合训练中学习到的通用对象感知能力和强大的泛化能力。
作为基础模型,GLEE可以替换LISA的中使用的SAM backbone,将LLAVA输出的SEG token 送入GLEE以生成分割结果。在进行相同的训练后,替换SAM后的 LISA-GLEE 取得了与原版 LISA 使用SAM相媲美的结果,说明了GLEE可以作为基础模型为其他任务提供信息。