前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MiVOS:用户交互型视频实例分割解耦框架(CVPR 2021)

MiVOS:用户交互型视频实例分割解耦框架(CVPR 2021)

作者头像
CV君
发布2022-09-01 10:48:12
6780
发布2022-09-01 10:48:12
举报

关注公众号,发现CV技术之美

本文分享一篇 CVPR 2021 论文『Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion』,由伊利诺伊大学厄巴纳-香槟分校、香港科技大学联合快手提出模块化交互式 VOS 算法, MiVOS,所需的交互帧数更低,分割精度与运行效率更高。

  • 论文链接:https://arxiv.org/abs/2103.07941
  • 项目链接:https://github.com/hkchengrex/MiVOS

01

前言

本文提出了模块化交互式VOS(MiVOS)框架,该框架将交互到掩码和掩码传播分离,从而实现更高的泛化性和更好的性能。单独训练的交互模块将用户交互转换为对象掩码,然后由传播模块使用一种新的top-k过滤策略在读取时空存储器时进行临时传播。为了有效地考虑用户的意图,提出了一种新颖的差异感知模块,以学习如何在每次交互之前和之后正确融合掩码,这些掩码通过利用时空存储器与目标帧对齐。

与当前现存的交互式VOS方法相比,作者提出的MiVOS所需的交互帧数更低,分割精度与运行效率更高。

与传统的转描方法相比,iVOS的进步显着减少了分割视频中物体标注所需的人力。(从标注100%的帧的Rotoscoping到现在只需标注3%的帧的Decoupled iVOS)。

02

方法

作者提出了一种用户交互型视频物体分割框架,通过用户迭代对视频中某些帧进行交互(标注),来提升分割精度。在作者提出的MiVOS解耦框架中,一共分为三个模块,分别为:S2M(用户交互产生分割图)、Propagation(掩码传播)、difference aware fusion(差异感知模块)。

在第r轮交互轮中,用户选择视频中的某一个帧t′,并使用实时运行的Scribble-to-Mask(S2M)模块以交互方式校正掩码,直到满意为止。然后,校正后的掩码将使用传播模块通过视频序列进行双向传播。为了整合前几轮的信息,差异感知融合模块用于融合以前的和当前的掩码。交互前与交互后掩码的差异(这传达了用户的交互意图)通过注意力机制在融合模块中被利用。

2.1 Interaction to mask:用户交互产生分割图模块

将用户交互(点击或者涂鸦)转换为图像的mask,其中论文中称其为S2M模型。S2M网络的目标是在给定输入涂鸦的情况下实时生成单图像分割掩码。

2.2 Propagation:分割传播模块

以用户当前帧作为起点,对mask进行双向传播(此处常常用一些半监督的VOS方法完成,比如说STM、STCN),获得整个视频的mask(通过用户标注,获取某些帧的mask,再通过双向传播获得所有帧的mask)。

给定一个对象掩码,传播模块跟踪对象并在后续中生成相应的蒙版框架。

我们将过去带有对象掩码的帧视为内存帧,这些帧用于使用基于注意的内存读取操作来预测当前(查询)帧的对象掩码。值得注意的是,作者提出了一种新颖轻巧的top-k操作,该操作与STM集成,并表明它无需复杂的训练技巧即可提高性能和速度。

如下所示为双向传播操作,一旦遇到结尾帧或者交互过的帧就停止传播。

2.3 difference aware fusion:差异感知融合模块

由于用户有多轮交互(比如经过第一轮交互,生成了整个视频的mask,但是用户进行二次检测的时候发现某些帧标注仍有问题,则开启下一轮交互,对有问题的帧再次进行修正),非交互帧就会有多轮的mask传播结果。(例如:用户先对视频中的第2帧进行交互,传播,用户再对视频的第5帧进行交互,传播,则视频中的第3帧会先在第2帧交互依据下,通过传播生成一个第3帧的mask,在对第5帧交互的时候会对第3帧再生成一个mask,则会产生多轮mask。),作者提出了不同轮次mask的差异感知模块,基于差异感知对2个mask进行融合。

在MiVOS中,作者结合了差异感知融合方法与线性融合方法,将差异感知与线性结果作为共同输入,再通过一个简单的网络来预测最终的输出。

如下图,其中Fused是差异感知的结果,Linear是传统线性融合的结果,GT是真实掩码,可以看出差异感知的效果要明显优于线性融合。

03

实验

所有的实验都在两张11GB的GPU上进行,以Adam为优化器。传播模块先在静态图像合成的视频上进行预训练,再在 BL30K, YouTubeVOS,DAVIS经典视频数据集上训练 。

在视频序列中选择三个随机帧,帧之间的最大距离逐渐从5增加到25,并在训练结束时退火到5。融合模块使用预训练传播模块的输出进行训练,首先在BL30K上,然后再在YouTubeVOS、DAVIS 上训练。

下表列出了模型中不同组件的运行时间。请参阅开源代码,了解详细的超参数设置。使用两个 GPU 训练所有模块大约需要两周时间。

在 DAVIS 2020 竞赛中, 机器人对其中的八个帧进行了交互,为了证明提出的解耦方法的有效性,需要较少的时间密集相互作用,MiVOS仅与三个帧进行交互。MiVOS停留在同一帧的即时反馈循环中,并且仅在机器人完成对一帧的注释时才执行传播。

下表展现了在DAVIS交互验证集上的性能,即使在上述的条件限制下,MiVOS仍然取得了最优性能。

消融

通过在DAVIS 交互式验证集上的消融研究。证明MiVOS 解耦baseline已经大大优于SOTA。尽管baseline很高,但通过top-k过滤,BL30K数据集中的预训练以及差异感知融合模块可以进一步提高其性能。在最后一行中,我们将交互模块替换为真实掩码,来评估给定3帧完美交互的方法的上限性能。

用户研究

通过进行用户研究,以定量评估用户的偏好和使用iVOS算法标记视频所需的人力。我们线性插值 IoU 与用户时间的关系图,并计算曲线下面积 (AUC) 以进行评估。通过与ATNet 进行比较,ATNet是性能最好的方法,拥有可用的源代码。如下图所示,可以看出MiVOS的用户耗时更低,AUC更高。

具体效果图:

04

结论

通过将交互与传播分离,MiVOS 是通用的,不受交互类型的限制。另一方面,所提出的融合模块通过忠实地捕捉用户的意图来协调交互和传播,并减轻了解耦过程中丢失的信息,从而使MiVOS既准确又高效。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档