首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

万物皆可“一键抠图”,Meta发布史上首个图像分割基础模型

◎撰稿|数字经济先锋号

今年毫无疑问是AI的超级大年。

上周,AI模型又出现了一个新的重大突破:Meta推出了一款Segment Anything Model (SAM)。据介绍,该模型能够根据文本指令等方式实现图像分割,而且万物皆可识别和“一键抠图”。

“这下CV是真不存在了,快跑。”这是知乎网友对SAM的评价。(CV是计算机视觉(Computer Vision)的缩写,指利用计算机和数学方法对图像和视频进行处理、分析和理解的技术)

英伟达人工智能科学家Jim Fan则称SAM是计算机视觉领域的GPT-3时刻之一。并直言,Segment Anything已经把所有事情(分割)都做的很好了。

Segment Anything Model

SAM是第一个致力于图像分割的基础模型。据Meta介绍,SAM已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成掩码,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM足够通用,可以涵盖广泛的用例,并且可以在新的图像领域上即开即用,无需额外的训练。

在深度学习领域,这种能力通常被称为零样本迁移,这也是GPT-4震惊世人的一大原因。

在此之前,分割作为计算机视觉的核心任务,已经得到广泛应用。但是,为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作,此外,该项任务还需要大量的领域标注数据,种种因素限制了图像分割的进一步发展。

以前,解决分割问题大致有两种方法。第一种是交互式分割,该方法允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种,自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(例如,数千甚至数万个分割猫的例子)。这两种方法都没有提供通用的、全自动的分割方法。

SAM是这两类方法的结合。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许以灵活的方式使用它,只需为模型设计正确的提示(点击、框、文本等),就可以完成范围广泛的分割任务。

此外,SAM在包含超过10亿个掩码(作为该项目的一部分收集)的多样化、高质量数据集上进行训练,这使其能够泛化到新类型的对象和图像,超出其在训练期间观察到的内容。这种概括能力意味着,从业者将不再需要收集他们自己的细分数据并为他们的场景微调模型。

总而言之,这些功能使SAM能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。最强大的是,Meta实现了一个完全不同的CV范式,你可以在一个统一框架prompt encoder内,指定一个点、一个边界框、一句话,直接一键分割出物体。

以下是一段展示SAM部分功能的短片:

SAM允许用户通过单击或通过交互式单击点来分割对象以包含和排除对象。还可以使用边界框提示模型。

SAM在面对被分割对象的歧义时可以输出多个有效掩码,这是解决现实世界中分割问题的重要且必要的能力。

SAM可以自动发现并屏蔽图像中的所有对象。

SAM可以在预计算图像嵌入后实时为任何提示生成分割掩码,允许与模型进行实时交互。

SAM的工作原理:可提示分割

Meta训练SAM为任何提示返回有效的分割掩码,即提示图像中要分割的内容的任何信息。有效掩码的要求意味着即使提示不明确并且可能指代多个对象(例如,衬衫上的一个点可能表示衬衫或穿着它的人),输出也应该是一个合理的掩码对象之一。此任务用于预训练模型并通过提示解决一般的下游分割任务。

Meta观察到预训练任务和交互式数据收集对模型设计施加了特定的限制。特别是,该模型需要在Web浏览器的CPU上实时运行,以允许标注者实时交互地使用SAM以高效地进行标注。

虽然运行时限制意味着质量和运行时之间的权衡,但Meta发现简单的设计在实践中会产生良好的结果。具体地,图像编码器为图像生成一次性嵌入向量,而轻量级编码器将任何提示实时转换为嵌入向量。然后将这两个信息源组合在一个预测分割掩码的轻量级解码器中。在计算图像嵌入后,SAM可以在50毫秒内根据网络浏览器中的任何提示生成一个分割。

SA-1B数据集

除了模型,Meta还发布了一个图像注释数据集Segment Anything 1-Billion(SA-1B)。该数据集可用于研究目的,并且Segment Anything Model在开放许可(Apache 2.0)下可用。

Meta声称这是“有史以来最大的分段数据集”。数据集是使用SAM收集的,标注者使用SAM交互地注释图像,之后新注释的数据又反过来更新SAM,可谓是相互促进。

使用该方法,交互式地注释一个掩码只需大约14秒。与之前的大规模分割数据收集工作相比,Meta的方法比COCO完全手动基于多边形的掩码注释快6.5倍,比之前最大的数据注释工作快2倍,这是因为有了SAM模型辅助的结果。

SA-1B最终的数据集超过11亿个分割掩码,在大约1100万张经过许可和隐私保护图像上收集而来。SA-1B的掩码比任何现有的分割数据集多400倍,并且经人工评估研究证实,这些掩码具有高质量和多样性,在某些情况下甚至在质量上可与之前更小、完全手动注释的数据集的掩码相媲美。

SA-1B的图像来自多个国家/地区的照片提供商,这些国家/地区跨越不同的地理区域和收入水平。虽然某些地理区域的代表性仍然不足,但与以前的分割数据集相比,SA-1B拥有更多的图像,并且在所有地区的总体代表性更好。

最后Meta表示希望这些数据可以帮助其他研究人员训练图像分割的基础模型。以及希望这些数据能够成为带有附加注释的新数据集的基础,例如与每个掩码相关的文本描述。

未来展望

通过研究和数据集共享,Meta希望进一步加速对图像分割以及更通用图像与视频理解的研究。可提示的分割模型可以充当更大系统中的一个组件,执行分割任务。作为一种强大的工具,组合(Composition)允许以可扩展的方式使用单个模型,并有可能完成模型设计时未知的任务。

Meta预计,与专门为一组固定任务训练的系统相比,基于prompt工程等技术的可组合系统设计将支持更广泛的应用。SAM可以成为AR、VR、内容创建、科学领域和更通用AI系统的强大组件。

据了解,Meta已经在内部使用与SAM类似的技术,用于标记照片、审核违禁内容以及确定向Facebook和Instagram用户推荐哪些帖子等。

SAM可以通过AR眼镜识别日常物品,为用户提供提示

SAM可能在农业领域帮助农民或者协助生物学家进行研究

展望未来,在像素级别的图像理解与更高级别的视觉内容语义理解之间,我们将看到更紧密的耦合,进而解锁更强大的AI系统。

论文地址:https://arxiv.org/abs/2304.02643

项目地址:https://github.com/facebookresearch/segment-anything

Demo 地址:https://segment-anything.com/

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230410A07C6N00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券