基于双流编码-解码深度网络的视频对象分割算法简介

背景介绍

视频对象分割(Video Object Segmentation),目的是将视频段中的物体连续地“抠”出来以得到视频每一帧的前景、背景分割结果。分割得到的结果可被用于更高级的识别、理解等计算机视觉任务,是目前基于内容的视频检索、视频编辑、视频自动标注的基础和关键环节。传统的视频对象分割算法有很多,根据在测试视频上执行是否需要人工标注可将其分为半监督算法和无监督算法两类。这里半监督算法在执行时需要人工对某些帧进行精确或非精确标注并根据标注结果得到其他帧的分割结果;而无监督算法在执行时完全自动地对所有帧进行分割,不需要人工干预。现有的无监督算法多是基于超像素点或object proposal的帧间匹配,占用存储空间大,只能局限于部分场景下的对象分割,当存在光照突变、非刚性形变等复杂情形时分割精度则较差。现有的半监督算法大部分都是基于图论的算法,该类算法分割精度较高,但由于构建和求解图的计算量过大,使其需要较长的执行时间才能得到好的分割结果。随着深度学习的发展,将深度学习引入视频对象分割是目前CV界的的主要趋势之一。

深度学习应用于视频对象分割的挑战

深度学习在图像分割领域已经取得了巨大成功,无论在效率还是精度上都超过了很多传统的方法如基于图论的算法等。然而近几年将深度学习直接应用于视频对象分割领域的工作却很少,可能原因有两点:

1. 目前尚没有找到一种合理的方式去结合视频帧内和帧间的有效信息:已有的如conv-lstm是一种融合帧间信息的模型,但我们认为conv-lstm不适合做视频对象分割,因为在一般情形下,视频每一帧中的背景信息是远多于前景信息的,因而直接对区域进行卷积提取并进行 lstm 建模,得到的模型中含有过多的冗余信息,这些冗余信息会造成 lstm 训练过程的不稳定。此外,lstm训练时会消耗大量的存储空间和计算量,这在一定程度上限制了lstm的层数,但如果层数过少该模型则不能学习到表征时空域变化的目标信息。最近提出的基于深度学习的OSVOS、MaskTrack算法则另辟蹊径,它们都指出视频对象分割不需要帧间信息,而仔细分析能发现它们都有过拟合的可能性,这种可能性将直接导致模型不能很好地迁移到其他场景下,而且我们认为帧间信息是不可或缺的,不利用帧间信息的做法是不合理的;

2. 目前尚没有超大型的视频对象分割数据集——类比图像分类领域的ImageNet,目前仅有的完全标注的视频对象分割数据集为DAVIS和SegTrack v2,总计4000多帧,远不能用于训练大型的视频对象分割网络。

最新成果

上海交通大学图像所研究团队提出了一种基于双流深度编码-解码网络的视频对象分割算法,在一定程度上解决了上述两个问题,在分割精度和速度上均有着不错的表现,模型结构清晰合理,可实用性强。该算法是一种高效的无监督分割算法,在常用数据集DAVIS和SegTrack v2上都展现了不错的性能。

方法示意图

我们提出了一个双流深度编码-解码网络。图示中ImSeg-Stream对视频序列中的帧进行空间域的图像分割;MoSeg-Stream用于分割帧间运动信息,这里选择对应帧的光流场伪彩色图来表征运动信息;Integration部分的目的是通过学习的方式对前面两路分割得到的结果进行融合提升,最终得到更好的结果。网络的实现和训练细节如下:

1. 编码部分我们选择的是带有多采样融合形式的DeepLab v2网络,该网络能够很好地感知图像中的局部信息,进而高效地处理输入图像得到一个“粗”分割结果,即分辨率较低,同时分割得到的物体位置较明显,边界较光滑,细节不清晰; 解码部分我们采用循环卷积层RCL(Recurrent Convolutional Layer)对编码过程学习得到的分割结果和前面卷积层学习得到的结构化特征图进行融合改进,递归地细化分割结果的边缘和细节信息,最终得到一个“细”分割结果,该结果分辨率等同于输入图像。解码部分的过程如图所示。我们能看到多个循环连接使得子网络从输入层到输出层有多条路径,这能提升训练的效果。随着训练次数的增加,RCL中一个像素单元的有效感受野也在增加,使得该单元能够在不增加网络参数的前提下感知更多更广的上下文信息。因而RCL能够有效地结合局部信息和全局信息,使得细节能够进一步恢复。

解码过程

2. Integration部分的融合方式如图所示,在形式上有些简单,但实验证明这种方式能够有效提升之前两路输出的分割结果。我们在未来的工作中计划研究更多的方式以实现解释性更强、效果更好的融合过程。

融合部分

3. 训练这个大网络分三步:首先分别训练ImSeg-Stream和MoSeg-Stream,最后训练Integration部分。我们收集大型图像分割数据集训练ImSeg-Stream; 针对目前缺少大型视频分割数据集这一现状,我们提出通过筛选、处理视频物体检测数据集这一方案将大型视频物体检测数据集转化为光流场分割数据集,最终得到了10^4级的训练数据;在训练好ImSeg-Stream和MoSeg-Stream后,将它们作为预训练好的离线分割网络,在此基础上训练Integration,使用少量完全标注的训练数据训练该部分直至网络收敛。

下面的表格包含了该算法和当前代表性的部分算法在DAVIS和SegTrack v2数据集上的分割精度对比。

下图为该算法和当前最好的半监督和无监督算法在DAVIS数据集上的分割结果对比。

更多论文细节和实验分析详见论文:

Xu J, Song L, Xie R. Two-Stream Deep Encoder-Decoder Architecture for Fully Automatic Video Object Segmentation [C]// Visual Communications and Image Processing. IEEE, 2017:1-4.

下载链接:http://medialab.sjtu.edu.cn/publications/2017/VCIP2017_JWXu_Two-Stream%20Deep%20Encoder-Decoder%20Architecture%20for%20Fully%20Automatic%20Video%20Object%20Segmentation.pdf

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-12-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

机器学习模型的特征选择第一部分:启发式搜索

特征选择能够改善你的机器学习模型。在这个系列中,我简单介绍你需要了解的特征选择的全部内容。本文为第一部分,我将讨论为什么特征选择很重要,以及为什么它实际上是一个...

42310
来自专栏企鹅号快讯

Attribute-Enhanced F R with Neural Tensor Fusion Networks 阅读笔记

因为标题长度有限,所以把Face Recognition简写成F R,论文题目应为《Attribute-Enhanced Face Recognition wi...

3277
来自专栏专知

【干货】这8种神经网络结构,你掌握了几个?

【导读】近日,James Le撰写了一篇博文,全面阐述了神经网络中经典的八种神经网络结构。包括感知器、卷积神经网络、循环神经网络、LSTM、Hopfield网络...

3409
来自专栏大数据挖掘DT机器学习

判别模型、生成模型与朴素贝叶斯方法

1、判别模型与生成模型 回归模型其实是判别模型,也就是根据特征值来求结果的概率。形式化表示为 ? ,在参数 ? 确定的情况下,求解条件概率 ? 。通俗的解...

3726
来自专栏AI科技大本营的专栏

干货 | 深度详解ResNet及其六大变体

编译 | 图普科技 本文由图普科技工程师编译自《An Overview of ResNet and its Variants》。 从AlexNet[1]在201...

4966
来自专栏机器学习算法与Python学习

一文让你入门CNN,附3份深度学习视频资源

CNN简介 文末附三份深度学习视频资源 后台回复关键词(20180310) 目录: 一些视频资源和文章 CNN简介 图像即四维张量? 卷积的定义 CNN如何工作...

4367
来自专栏YoungGy

MMD_3a_CommunitiesInSN

The first four videos are part of the basic track, and cover machine-learning te...

2519
来自专栏统计学习方法

《统计学习方法》第八章-提升方法

在《统计学习方法》中第八章提升方法,包括四节,第一节介绍AdaBoost、第二节介绍AdaBoost的误差、第三节介绍从前向分布算法来实现AdaBoost、第四...

2096
来自专栏AI科技大本营的专栏

干货 | 转型人工智能,你需要掌握的八大神经网络

翻译 | AI科技大本营 参与 | 林椿眄 编辑 | Donna 为什么我们需要机器学习? 机器学习可以解决人类不能直接用编程来应对的复杂难题,因此,我们喂给机...

3657
来自专栏人工智能头条

李理:递归神经网络RNN扼要

1885

扫码关注云+社区

领取腾讯云代金券