基于双流编码-解码深度网络的视频对象分割算法简介

背景介绍

视频对象分割(Video Object Segmentation),目的是将视频段中的物体连续地“抠”出来以得到视频每一帧的前景、背景分割结果。分割得到的结果可被用于更高级的识别、理解等计算机视觉任务,是目前基于内容的视频检索、视频编辑、视频自动标注的基础和关键环节。传统的视频对象分割算法有很多,根据在测试视频上执行是否需要人工标注可将其分为半监督算法和无监督算法两类。这里半监督算法在执行时需要人工对某些帧进行精确或非精确标注并根据标注结果得到其他帧的分割结果;而无监督算法在执行时完全自动地对所有帧进行分割,不需要人工干预。现有的无监督算法多是基于超像素点或object proposal的帧间匹配,占用存储空间大,只能局限于部分场景下的对象分割,当存在光照突变、非刚性形变等复杂情形时分割精度则较差。现有的半监督算法大部分都是基于图论的算法,该类算法分割精度较高,但由于构建和求解图的计算量过大,使其需要较长的执行时间才能得到好的分割结果。随着深度学习的发展,将深度学习引入视频对象分割是目前CV界的的主要趋势之一。

深度学习应用于视频对象分割的挑战

深度学习在图像分割领域已经取得了巨大成功,无论在效率还是精度上都超过了很多传统的方法如基于图论的算法等。然而近几年将深度学习直接应用于视频对象分割领域的工作却很少,可能原因有两点:

1. 目前尚没有找到一种合理的方式去结合视频帧内和帧间的有效信息:已有的如conv-lstm是一种融合帧间信息的模型,但我们认为conv-lstm不适合做视频对象分割,因为在一般情形下,视频每一帧中的背景信息是远多于前景信息的,因而直接对区域进行卷积提取并进行 lstm 建模,得到的模型中含有过多的冗余信息,这些冗余信息会造成 lstm 训练过程的不稳定。此外,lstm训练时会消耗大量的存储空间和计算量,这在一定程度上限制了lstm的层数,但如果层数过少该模型则不能学习到表征时空域变化的目标信息。最近提出的基于深度学习的OSVOS、MaskTrack算法则另辟蹊径,它们都指出视频对象分割不需要帧间信息,而仔细分析能发现它们都有过拟合的可能性,这种可能性将直接导致模型不能很好地迁移到其他场景下,而且我们认为帧间信息是不可或缺的,不利用帧间信息的做法是不合理的;

2. 目前尚没有超大型的视频对象分割数据集——类比图像分类领域的ImageNet,目前仅有的完全标注的视频对象分割数据集为DAVIS和SegTrack v2,总计4000多帧,远不能用于训练大型的视频对象分割网络。

最新成果

上海交通大学图像所研究团队提出了一种基于双流深度编码-解码网络的视频对象分割算法,在一定程度上解决了上述两个问题,在分割精度和速度上均有着不错的表现,模型结构清晰合理,可实用性强。该算法是一种高效的无监督分割算法,在常用数据集DAVIS和SegTrack v2上都展现了不错的性能。

方法示意图

我们提出了一个双流深度编码-解码网络。图示中ImSeg-Stream对视频序列中的帧进行空间域的图像分割;MoSeg-Stream用于分割帧间运动信息,这里选择对应帧的光流场伪彩色图来表征运动信息;Integration部分的目的是通过学习的方式对前面两路分割得到的结果进行融合提升,最终得到更好的结果。网络的实现和训练细节如下:

1. 编码部分我们选择的是带有多采样融合形式的DeepLab v2网络,该网络能够很好地感知图像中的局部信息,进而高效地处理输入图像得到一个“粗”分割结果,即分辨率较低,同时分割得到的物体位置较明显,边界较光滑,细节不清晰; 解码部分我们采用循环卷积层RCL(Recurrent Convolutional Layer)对编码过程学习得到的分割结果和前面卷积层学习得到的结构化特征图进行融合改进,递归地细化分割结果的边缘和细节信息,最终得到一个“细”分割结果,该结果分辨率等同于输入图像。解码部分的过程如图所示。我们能看到多个循环连接使得子网络从输入层到输出层有多条路径,这能提升训练的效果。随着训练次数的增加,RCL中一个像素单元的有效感受野也在增加,使得该单元能够在不增加网络参数的前提下感知更多更广的上下文信息。因而RCL能够有效地结合局部信息和全局信息,使得细节能够进一步恢复。

解码过程

2. Integration部分的融合方式如图所示,在形式上有些简单,但实验证明这种方式能够有效提升之前两路输出的分割结果。我们在未来的工作中计划研究更多的方式以实现解释性更强、效果更好的融合过程。

融合部分

3. 训练这个大网络分三步:首先分别训练ImSeg-Stream和MoSeg-Stream,最后训练Integration部分。我们收集大型图像分割数据集训练ImSeg-Stream; 针对目前缺少大型视频分割数据集这一现状,我们提出通过筛选、处理视频物体检测数据集这一方案将大型视频物体检测数据集转化为光流场分割数据集,最终得到了10^4级的训练数据;在训练好ImSeg-Stream和MoSeg-Stream后,将它们作为预训练好的离线分割网络,在此基础上训练Integration,使用少量完全标注的训练数据训练该部分直至网络收敛。

下面的表格包含了该算法和当前代表性的部分算法在DAVIS和SegTrack v2数据集上的分割精度对比。

下图为该算法和当前最好的半监督和无监督算法在DAVIS数据集上的分割结果对比。

更多论文细节和实验分析详见论文:

Xu J, Song L, Xie R. Two-Stream Deep Encoder-Decoder Architecture for Fully Automatic Video Object Segmentation [C]// Visual Communications and Image Processing. IEEE, 2017:1-4.

下载链接:http://medialab.sjtu.edu.cn/publications/2017/VCIP2017_JWXu_Two-Stream%20Deep%20Encoder-Decoder%20Architecture%20for%20Fully%20Automatic%20Video%20Object%20Segmentation.pdf

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-12-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

网络节点表示学习论文笔记02—CIKM2015GraRep: 基于全局结构信息的图结点表示学习

【导读】这次论文笔记介绍了介绍一种具有代表性的网络节点表示学习(NRL)方法:GraRep。以LINE为代表的一系列NRL算法一些网络上具有很好地学习效果,但它...

4017
来自专栏绿巨人专栏

机器学习实战 - 读书笔记(05) - Logistic回归

4069
来自专栏ml

关于梯度下降算法的的一些总结

目录:  1. 前言  2. 正文   2.1 梯度      2.2 梯度下降算法          2.2.1 批量梯度下降算法          2.2....

33011
来自专栏人工智能LeadAI

零基础入门深度学习 | 第五章: 循环神经网络

无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习这个超热的技术,会不会感...

3907
来自专栏CreateAMind

TensorFlow 文档:MNIST机器学习入门

872
来自专栏大数据挖掘DT机器学习

算法工程师的面试难不难,如何准备?-图像处理/CV/ML/DL到HR面总结

把一些相关的知识点总结一下。这个比长,感兴趣的挑自己相关的那部分看。 都是一些基础知识,面相关岗位问到的比较多。 (回答时对算法要有一定的见解,最好不要照书上的...

5035
来自专栏语言、知识与人工智能

transformer框架概述

3.2K7
来自专栏深度学习自然语言处理

神经网络基础模型--Logistic Regression的理论和实践

1 概述 Logistic Regression 即 逻辑回归,属于监督学习,输入x(特征数据),输出为0或1(显然是二分类)。为什么要用逻辑回归讲神经...

34315
来自专栏人工智能LeadAI

梯度下降法快速教程 | 第一章:Python简易实现以及对学习率的探讨

前言 梯度下降法(Gradient Descent)是机器学习中最常用的优化方法之一,常用来求解目标函数的极值。 其基本原理非常简单:沿着目标函数梯度下降的方向...

3438
来自专栏人工智能

在图像中标注新的对象

给定一个图像,人类可以很容易地推断其中的显着实体,并有效地描述场景,如对象所在的位置(在森林或厨房?),对象具有什么属性(棕色或白色?),更重要的是,物体如何与...

28611

扫描关注云+社区