被称为计算机视觉新里程碑的SAM模型到底是什么？

文章来源：企鹅号 - 景联文科技

SAM是Meta 提出的分割一切模型（Segment Anything Model，SAM）突破了分割界限，极大地促进了计算机视觉基础模型的发展。

SAM是一个提示型模型，其在1100万张图像上训练了超过10亿个掩码，实现了强大的零样本泛化。许多研究人员认为「这是 CV 的 GPT-3 时刻，因为 SAM 已经学会了物体是什么的一般概念，甚至是未知的物体、不熟悉的场景（如水下、细胞显微镜）和模糊的情况」，并展示了作为 CV 基本模型的巨大潜力。

SAM模型概览

2023年4月6号，Meta AI公开了Segment Anything Model（SAM），使用了有史以来最大的分割数据集Segment Anything 1-Billion mask dataset（SA-1B），其内包含了1100万张图像，总计超过10亿张掩码图，模型在训练时被设计为交互性的可提示模型，因此可以通过零样本学习转移到新的图像分布和任务中。在其中他们提出一个用于图像分割的基础模型，名为SAM。该模型被发现在NLP和CV领域中表现出较强的性能，研究人员试图建立一个类似的模型来统一整个图像分割任务。

SAM 架构主要包含三个部分：图像编码器；提示编码器；以及掩码解码器。

Meta AI提出一个大规模多样化的图像分割数据集：SA-1B（包含1100万张图片以及10亿个Mask图）

在这项工作中，SAM的目标是建立一个图像分割的基础模型（Foundation Models）。其目标是在给定任何分割提示下返回一个有效的分割掩码，并在一个大规模且支持强大泛化能力的数据集上对其进行预训练，然后用提示工程解决一系列新的数据分布上的下游分割问题。

项目关键的三部分包括组件：任务、模型、数据。

任务：在NLP和CV中，基础模型是一个很有前途的发展，受到启发，研究者提出了提示分割任务，其目标是在给定任何分割提示下返回一个有效的分割掩码。

为此，研究者设计了Segment Anything Model（SAM），包含一个强大的图像编码器（计算图像嵌入），一个提示编码器（计算提示嵌入），一个轻量级掩码解码器（实时预测掩码）。在使用时，只需要对图像提取一次图像嵌入，可以在不同的提示下重复使用。给定一个图像嵌入，提示编码器和掩码解码器可以在浏览器中在~50毫秒内根据提示预测掩码。

1. 图像编码器：基于可扩展和强大的预训练方法，研究者使用MAE预训练的ViT，最小限度地适用于处理高分辨率输入。图像编码器对每张图像运行一次，在提示模型之前进行应用。

2. 提示编码器：考虑两组prompt：稀疏（点、框、文本）和密集（掩码）。研究者通过位置编码来表示点和框，并将对每个提示类型的学习嵌入和自由形式的文本与CLIP中的现成文本编码相加。密集的提示（即掩码）使用卷积进行嵌入，并通过图像嵌入进行元素求和。

3. 掩码解码器：掩码解码器有效地将图像嵌入、提示嵌入和输出token映射到掩码。

掩码质量：为了评估掩码质量，研究者随机抽取了500张图像（大约5万个掩码），要求专业标注员使用像素精确的“画笔”和“橡皮擦”在模型预测掩码的基础上对其进行专业矫正。这一过程，产生成对的模型预测掩码以及人工专业矫正后的掩码。通过计算每对之间的IoU，来评估掩码质量。实现结果发现，94%的对具有大于90%的IoU。

数据引擎：为了对庞大数据的图像进行掩码标注，作者开发了数据引擎。如图所示，它是一个模型、数据的闭环系统。

模型标注数据：标注好的数据用来优化模型。以此循环，迭代优化模型以及数据质量。

该数据引擎有三个阶段：模型辅助手动标注、半自动标注阶段和全自动阶段。

（1）模型辅助手动标注阶段

该阶段开始之前，研究者首先使用常见的公开图像分割数据集训练SAM，然后使用SAM为SA-1B数据预测图像掩码，由一组专业标注人员在预测掩码的基础上进行掩码细化。标注人员可以自由地为掩码赋予标签；此外，标注人员需要按照对象的突出程度来标记对象，并且掩码标注超过30秒就要继续处理下一张图像。在充分的数据标注后，仅使用新标注的掩码对SAM进行重新训练（该阶段总共训练了模型6次）。随着收集到更多的掩码，图像编码器从ViT-B扩展到ViT-H。同时，随着模型的改进。每个掩码的平均标注时间从34秒减少到14秒（比COCO的掩码标注快6.5倍，比2D框标注慢2倍）；每个图像的平均掩码数量从20个掩码增加到44个掩码。总的来说，该阶段从12万张图像中收集了4630万个掩码。

（2）半自动阶段该阶段

其目标是增加掩码的多样性，以提供模型分割东西的能力。为了使标注者专注于不太突出的对象，首先SAM自动分割高置信度的掩码，然后向标注者展示预填充这些掩码的图像，并要求他们标注任何其他未标注的对象。该阶段在18万张图像中额外收集590万个掩码（总共1020万个掩码）。与第一阶段一样，定期在新收集的数据集上重新训练模型。每个掩码的平均标注时间回到34秒。每个图像的平均掩码数量从44个增加到72个。

（3）全自动阶段这个阶段

这个阶段的标注是全自动的，因为模型有两个主要的增强。首先，在这一阶段的开始，收集了足够多的掩码来大大改进模型；其次，在这一阶段，已经开发了模糊感知模型，它允许在有歧义的情况下预测有效的掩码。具体来说，用32x32的规则网络点来提示网络，并为每个点预测一组可能对应于有效对象的掩码。在模糊感知模型中，如果一个点位于某个部分或子部分上，模型将返回子部分、局部和整个对象。该模型的IoU模块将选择高置信度的掩码，同时选择稳定掩码（如果阈值化概率图在0.5-σ，0.5+σ）产生相似的掩码，则认为是稳定掩码。最后，在选择高置信度和稳定的掩码后，采用NMS对重复数据进行过滤。该阶段，在1100万张图像上全自动生成11亿个高质量掩码。

SAM的用途

SAM可被用于图像处理，包括软件场景、真实场景以及复杂场景。

软件场景

软件场景需要对图像编辑和修复进行操作，例如移除对象、填充对象和替换对象。然而，现有的修复工作，需要对每个掩码进行精细的注释以达到良好的性能，这是一项劳动密集型的工作。SAM 可以通过简单的提示如点或框来生成准确的掩码，可以帮助辅助图像编辑场景。

真实场景

研究者表示SAM具有协助处理许多真实世界场景的能力，例如真实世界的物体检测、物体计数以及移动物体检测场景。研究者对SAM在多种真实世界分割场景（例如，自然图像、农业、制造业、遥感和医疗健康场景）中的性能进行了评估。发现，在像自然图像这样的常见场景中，它具有优秀的泛化能力，而在低对比度的场景中，它的效果较差，而且在复杂场景中需要强大的先验知识。

除了上述的常规场景，SAM也可被用于解决复杂场景中的分割问题。研究发现，SAM在隐蔽场景中的技巧不足，潜在的解决方案可能依赖于在特定领域的先验知识的支持。

景联文科技是AI基础数据行业的头部企业，已通过将SAM集成进数据标注平台，为用户提供更好的标注体验。用户在使用SAM模型时，可以更加轻松、高效地完成数据标注任务，并基于SAM的特点为数据场景做了专项优化，使用户可以得到更加精准的标注结果。

此外，图像标注工作台搭载智能化辅助标注功能以提升标注效率，例如平台支持自动识别当前图片的物体类型，对识别结果自动添加品类标签，进行特征归类或分类整理；支持通过智能AI语义分割模型配合人工手动补点，可快速完成像素级图像类别的物体区域分类标注；支持对图片物体内容进行自动打点标注。此外，景联文数据平台还具备自动目标检测能力，可快速实现视频抽帧后图像中相同目标的跟踪和定位。

景联文科技数据场景实验室和数据标注基地，致力于为智能驾驶、智能家居、公共安全、智慧城市、智慧医疗、智慧金融、智能教育、智能司法等领域提供高质量、场景化的数据采集和数据标注业务，全方位支持文本、语音、图像和视频等数据类型的处理。

在数据标注平台的流程管理上，景联文科技重视作业协同化，可准确把控从“原始数据”到“数据成品”全流程，实现对数据标注过程的全方位把控，数据标注后经过审核、质检、验收等不同环节确保数据准确性，且每个环节都有专业人员来把控数据标注的质量和时间节点，做好各工作环节完美衔接，可以在保证质量的前提现下提高效率。此外，景联文科技遵循标审分离原则，风险管控机制完善，并支持平台的私有化部署，可以更好地提高数据标注的效率和精确度，全方位保证数据的隐私安全。为企业提供高效率、高质量、场景化、多维度的数据服务。

景联文科技｜数据采集｜数据标注

助力人工智能技术，赋能传统产业智能化转型升级

发表于: 2023-06-132023-06-13 11:35:58
原文链接：https://kuaibao.qq.com/s/20230613A03JPY00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

被称为计算机视觉新里程碑的SAM模型到底是什么？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐