CVPR2020 | RPM-Net | 像素级目标分割网络结构，无需人工标注数据，通过自监督训练，接近全监督算法。

CNNer

发布于 2020-06-19 15:39:11

9210

发布于 2020-06-19 15:39:11

文章被收录于专栏：CNNer

论文地址：https://arxiv.org/abs/1909.13247 来源：韩国技术学院 论文名称：RPM-Net: Robust Pixel-Level Matching Networks for Self-SupervisedVideo Object Segmentation 原文作者：Youngeun Kim

本文提出了一种可以不需要人工标注数据集的自监督视频目标跟踪算法。明确的说，本文提出了一种鲁棒的像素级的匹配网络（RPM-Net），该深度学习框架通过颜色信息对相邻帧的图像信息进行像素级别的匹配，并且该算法在训练过程不需要人工标注的数据集。实际上RPM-Net可以被分为两个主要的模块。首先，嵌入模块，将输入的图像数据映射到高维的嵌入空间中。然后，匹配模块使用可变卷积层对提取的嵌入特征进行操作，实现当前帧和目标帧之间的像素匹配。与以往使用可变形卷积的方法不同，该匹配模块采用可变形卷积来在时间和空间对相邻像素中的相似特征进行匹配。实验表明，本文算法提取的特征提高了对摄像机抖动、快速运动、变形和遮挡等视频目标分割问题的鲁棒性。同时在三个公开的数据集( DAVIS-2017、SegTrack-v2 andYoutube-Objects)上进行了综合测试，算法在自监督视频目标分割领域表现SOTA。并且该算法显著的减小了自监督和全监督视频目标分割算法之间的差距（在DAVIS-2017的验证集上分别为41.0%和52.5%）。

下面是论文具体框架结构以及实验结果：