首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

武智能院联合自动化所提出通用视觉模型FastSAM,比SAM快50倍

原创:谭婧

由美国Meta公司提出的能够“分割一切”的视觉基础大模型SAM引起了较大影响,为探索通用视觉大模型提供了一个新的方向。

2023年6月22日,中科院自动化所的研究团队针对“分割一切”任务,提出了FastSAM方法。

中科院自动化所团队提出的FastSAM,对“分割一切”这一通用视觉任务的算法设计范式进行了重新思考,设计了“全实例分割+基于指令的掩码输出”两阶段算法。

FastSAM通过引入人工先验的结构设计,大幅降低了原Transformer结构在该通用感知任务上的计算冗余,实现了50倍加速,这一“快速”的特点,有利于视觉基础大模型的行业落地,有利于工业化应用落地。

SAM的“分割一切”功能实现了基于点、框、文字等多类型指令的物体及区域分割。本质就是语义分割。

SAM采用了端对端的Transformer结构在千万数量级监督样本上进行训练,在边缘检测、物体检测、显著物体识别、工业异常检测等下游任务上表现了很强泛化性。

“全实例分割+基于指令的掩码输出”两阶段算法,方法结构如图1所示。

FastSAM在每个阶段进行了任务和方法协同的方法设计:

(1)第一阶段,利用图像中大多数物体只占据图像局部区域的特点,采用天然具备局部连接特点的卷积算子进行全实例分割网络构建。该结构相较Transformer结构更加紧致,计算成本更低,但依旧保持对物体或图像区域的表示和判别能力。

(2)第二阶段,采用物理空间匹配和图文对齐空间匹配的策略进行基于指令的掩码输出。基于上一阶段的全实例分割掩码:对于基于位置点指令,将该点的位置所关联的最优分割区域进行输出,支持多点模式、背景点抑制;对于基于位置框的指令,将包围框匹配到的最大IoU的分割掩码进行输出;对于文本指令,利用图文对齐网络CLIP将掩码图像区域与文本指令映射到同一个空间,进行相似性计算,进而输出最相似区域。

基于此方法结构,FastSAM在SAM团队开源的SA-1B数据集上随机挑选了2%的图片进行训练就取得了和SAM可匹配的效果,并且速度相较最常用的32×32指令版本的SAM提升了50倍,实现了实时“分割一切”(图2)。

图3 展示了FastSAM的分割效果,图4在显著物体分割任务上对比了FastSAM和SAM的分割效果。表1和表2 在候选位置生成和边缘检测任务上对比了FastSAM和SAM的效果。

该方法已于技术报告的形式发布于预印版网站Arxiv上,并开源了相关代码和演示页面。代码和演示已经上传Github。

研究团队认为,在高质量数据的基础上,面向特定任务引入人工经验,设计任务相关的网络结构,在深度学习模型的准确率和效率上的作用值得进一步研究。

该方法已于技术报告的形式发布于预印版网站Arxiv上(2023年6月21日),并开源了相关代码和演示页面。

研究团队认为,在高质量数据的基础上,面向特定任务引入人工经验,设计任务相关的网络结构,在深度学习模型的准确率和效率上的作用值得进一步研究。

论文通讯作者王金桥,一作赵旭、共同作者丁文超、安永琪、杜英龙、于涛、李敏、唐明。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230622A05KNM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券