基于双流编码-解码深度网络的视频对象分割算法简介

文章来源：企鹅号 - 媒矿工厂

背景介绍

视频对象分割（Video Object Segmentation），目的是将视频段中的物体连续地“抠”出来以得到视频每一帧的前景、背景分割结果。分割得到的结果可被用于更高级的识别、理解等计算机视觉任务，是目前基于内容的视频检索、视频编辑、视频自动标注的基础和关键环节。传统的视频对象分割算法有很多，根据在测试视频上执行是否需要人工标注可将其分为半监督算法和无监督算法两类。这里半监督算法在执行时需要人工对某些帧进行精确或非精确标注并根据标注结果得到其他帧的分割结果；而无监督算法在执行时完全自动地对所有帧进行分割，不需要人工干预。现有的无监督算法多是基于超像素点或object proposal的帧间匹配，占用存储空间大，只能局限于部分场景下的对象分割，当存在光照突变、非刚性形变等复杂情形时分割精度则较差。现有的半监督算法大部分都是基于图论的算法，该类算法分割精度较高，但由于构建和求解图的计算量过大，使其需要较长的执行时间才能得到好的分割结果。随着深度学习的发展，将深度学习引入视频对象分割是目前CV界的的主要趋势之一。

深度学习应用于视频对象分割的挑战

深度学习在图像分割领域已经取得了巨大成功，无论在效率还是精度上都超过了很多传统的方法如基于图论的算法等。然而近几年将深度学习直接应用于视频对象分割领域的工作却很少，可能原因有两点：

1.目前尚没有找到一种合理的方式去结合视频帧内和帧间的有效信息：已有的如conv-lstm是一种融合帧间信息的模型，但我们认为conv-lstm不适合做视频对象分割，因为在一般情形下，视频每一帧中的背景信息是远多于前景信息的，因而直接对区域进行卷积提取并进行 lstm 建模，得到的模型中含有过多的冗余信息，这些冗余信息会造成 lstm 训练过程的不稳定。此外，lstm训练时会消耗大量的存储空间和计算量，这在一定程度上限制了lstm的层数，但如果层数过少该模型则不能学习到表征时空域变化的目标信息。最近提出的基于深度学习的OSVOS、MaskTrack算法则另辟蹊径，它们都指出视频对象分割不需要帧间信息，而仔细分析能发现它们都有过拟合的可能性，这种可能性将直接导致模型不能很好地迁移到其他场景下，而且我们认为帧间信息是不可或缺的，不利用帧间信息的做法是不合理的；

2.目前尚没有超大型的视频对象分割数据集——类比图像分类领域的ImageNet，目前仅有的完全标注的视频对象分割数据集为DAVIS和SegTrack v2，总计4000多帧，远不能用于训练大型的视频对象分割网络。

最新成果

上海交通大学图像所研究团队提出了一种基于双流深度编码-解码网络的视频对象分割算法，在一定程度上解决了上述两个问题，在分割精度和速度上均有着不错的表现，模型结构清晰合理，可实用性强。该算法是一种高效的无监督分割算法，在常用数据集DAVIS和SegTrack v2上都展现了不错的性能。

方法示意图

我们提出了一个双流深度编码-解码网络。图示中ImSeg-Stream对视频序列中的帧进行空间域的图像分割；MoSeg-Stream用于分割帧间运动信息，这里选择对应帧的光流场伪彩色图来表征运动信息；Integration部分的目的是通过学习的方式对前面两路分割得到的结果进行融合提升，最终得到更好的结果。网络的实现和训练细节如下：

1.编码部分我们选择的是带有多采样融合形式的DeepLab v2网络，该网络能够很好地感知图像中的局部信息，进而高效地处理输入图像得到一个“粗”分割结果，即分辨率较低，同时分割得到的物体位置较明显，边界较光滑，细节不清晰；解码部分我们采用循环卷积层RCL（Recurrent Convolutional Layer）对编码过程学习得到的分割结果和前面卷积层学习得到的结构化特征图进行融合改进，递归地细化分割结果的边缘和细节信息，最终得到一个“细”分割结果，该结果分辨率等同于输入图像。解码部分的过程如图所示。我们能看到多个循环连接使得子网络从输入层到输出层有多条路径，这能提升训练的效果。随着训练次数的增加，RCL中一个像素单元的有效感受野也在增加，使得该单元能够在不增加网络参数的前提下感知更多更广的上下文信息。因而RCL能够有效地结合局部信息和全局信息，使得细节能够进一步恢复。

解码过程

2.Integration部分的融合方式如图所示，在形式上有些简单，但实验证明这种方式能够有效提升之前两路输出的分割结果。我们在未来的工作中计划研究更多的方式以实现解释性更强、效果更好的融合过程。

融合部分

3.训练这个大网络分三步：首先分别训练ImSeg-Stream和MoSeg-Stream，最后训练Integration部分。我们收集大型图像分割数据集训练ImSeg-Stream；针对目前缺少大型视频分割数据集这一现状，我们提出通过筛选、处理视频物体检测数据集这一方案将大型视频物体检测数据集转化为光流场分割数据集，最终得到了10^4级的训练数据；在训练好ImSeg-Stream和MoSeg-Stream后，将它们作为预训练好的离线分割网络，在此基础上训练Integration，使用少量完全标注的训练数据训练该部分直至网络收敛。

下面的表格包含了该算法和当前代表性的部分算法在DAVIS和SegTrack v2数据集上的分割精度对比。

下图为该算法和当前最好的半监督和无监督算法在DAVIS数据集上的分割结果对比。

更多论文细节和实验分析详见论文：

Xu J, Song L, Xie R. Two-Stream Deep Encoder-Decoder Architecture for Fully Automatic Video Object Segmentation [C]// Visual Communications and Image Processing. IEEE, 2017:1-4.

发表于: 2017-12-142017-12-14 22:40:32
原文链接：http://kuaibao.qq.com/s/20171214G0ZGGZ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

基于双流编码-解码深度网络的视频对象分割算法简介

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐