MiVOS：用户交互型视频实例分割解耦框架(CVPR 2021)

CV君

发布于 2022-09-01 10:48:12

6780

发布于 2022-09-01 10:48:12

关注公众号，发现CV技术之美

本文分享一篇 CVPR 2021 论文『Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion』，由伊利诺伊大学厄巴纳-香槟分校、香港科技大学联合快手提出模块化交互式 VOS 算法， MiVOS，所需的交互帧数更低，分割精度与运行效率更高。

论文链接：https://arxiv.org/abs/2103.07941
项目链接：https://github.com/hkchengrex/MiVOS

前言

本文提出了模块化交互式VOS（MiVOS）框架，该框架将交互到掩码和掩码传播分离，从而实现更高的泛化性和更好的性能。单独训练的交互模块将用户交互转换为对象掩码，然后由传播模块使用一种新的top-k过滤策略在读取时空存储器时进行临时传播。为了有效地考虑用户的意图，提出了一种新颖的差异感知模块，以学习如何在每次交互之前和之后正确融合掩码，这些掩码通过利用时空存储器与目标帧对齐。

与当前现存的交互式VOS方法相比，作者提出的MiVOS所需的交互帧数更低，分割精度与运行效率更高。

与传统的转描方法相比，iVOS的进步显着减少了分割视频中物体标注所需的人力。（从标注100%的帧的Rotoscoping到现在只需标注3%的帧的Decoupled iVOS）。

方法

作者提出了一种用户交互型视频物体分割框架，通过用户迭代对视频中某些帧进行交互（标注），来提升分割精度。在作者提出的MiVOS解耦框架中，一共分为三个模块，分别为：S2M（用户交互产生分割图）、Propagation（掩码传播）、difference aware fusion（差异感知模块）。

在第r轮交互轮中，用户选择视频中的某一个帧t′，并使用实时运行的Scribble-to-Mask（S2M）模块以交互方式校正掩码，直到满意为止。然后，校正后的掩码将使用传播模块通过视频序列进行双向传播。为了整合前几轮的信息，差异感知融合模块用于融合以前的和当前的掩码。交互前与交互后掩码的差异（这传达了用户的交互意图）通过注意力机制在融合模块中被利用。

2.1 Interaction to mask：用户交互产生分割图模块

将用户交互（点击或者涂鸦）转换为图像的mask，其中论文中称其为S2M模型。S2M网络的目标是在给定输入涂鸦的情况下实时生成单图像分割掩码。

2.2 Propagation：分割传播模块

以用户当前帧作为起点，对mask进行双向传播（此处常常用一些半监督的VOS方法完成，比如说STM、STCN），获得整个视频的mask（通过用户标注，获取某些帧的mask，再通过双向传播获得所有帧的mask）。

给定一个对象掩码，传播模块跟踪对象并在后续中生成相应的蒙版框架。

我们将过去带有对象掩码的帧视为内存帧，这些帧用于使用基于注意的内存读取操作来预测当前（查询）帧的对象掩码。值得注意的是，作者提出了一种新颖轻巧的top-k操作，该操作与STM集成，并表明它无需复杂的训练技巧即可提高性能和速度。

如下所示为双向传播操作，一旦遇到结尾帧或者交互过的帧就停止传播。

2.3 difference aware fusion：差异感知融合模块

由于用户有多轮交互（比如经过第一轮交互，生成了整个视频的mask，但是用户进行二次检测的时候发现某些帧标注仍有问题，则开启下一轮交互，对有问题的帧再次进行修正），非交互帧就会有多轮的mask传播结果。（例如：用户先对视频中的第2帧进行交互，传播，用户再对视频的第5帧进行交互，传播，则视频中的第3帧会先在第2帧交互依据下，通过传播生成一个第3帧的mask，在对第5帧交互的时候会对第3帧再生成一个mask，则会产生多轮mask。），作者提出了不同轮次mask的差异感知模块，基于差异感知对2个mask进行融合。

在MiVOS中，作者结合了差异感知融合方法与线性融合方法，将差异感知与线性结果作为共同输入，再通过一个简单的网络来预测最终的输出。

如下图，其中Fused是差异感知的结果，Linear是传统线性融合的结果，GT是真实掩码，可以看出差异感知的效果要明显优于线性融合。

实验

所有的实验都在两张11GB的GPU上进行，以Adam为优化器。传播模块先在静态图像合成的视频上进行预训练，再在 BL30K, YouTubeVOS，DAVIS经典视频数据集上训练。

在视频序列中选择三个随机帧，帧之间的最大距离逐渐从5增加到25，并在训练结束时退火到5。融合模块使用预训练传播模块的输出进行训练，首先在BL30K上，然后再在YouTubeVOS、DAVIS 上训练。

下表列出了模型中不同组件的运行时间。请参阅开源代码，了解详细的超参数设置。使用两个 GPU 训练所有模块大约需要两周时间。

在 DAVIS 2020 竞赛中，机器人对其中的八个帧进行了交互，为了证明提出的解耦方法的有效性，需要较少的时间密集相互作用，MiVOS仅与三个帧进行交互。MiVOS停留在同一帧的即时反馈循环中，并且仅在机器人完成对一帧的注释时才执行传播。

下表展现了在DAVIS交互验证集上的性能，即使在上述的条件限制下，MiVOS仍然取得了最优性能。

消融

通过在DAVIS 交互式验证集上的消融研究。证明MiVOS 解耦baseline已经大大优于SOTA。尽管baseline很高，但通过top-k过滤，BL30K数据集中的预训练以及差异感知融合模块可以进一步提高其性能。在最后一行中，我们将交互模块替换为真实掩码，来评估给定3帧完美交互的方法的上限性能。