基于双流编码-解码深度网络的视频对象分割算法简介

背景介绍

视频对象分割(Video Object Segmentation),目的是将视频段中的物体连续地“抠”出来以得到视频每一帧的前景、背景分割结果。分割得到的结果可被用于更高级的识别、理解等计算机视觉任务,是目前基于内容的视频检索、视频编辑、视频自动标注的基础和关键环节。传统的视频对象分割算法有很多,根据在测试视频上执行是否需要人工标注可将其分为半监督算法和无监督算法两类。这里半监督算法在执行时需要人工对某些帧进行精确或非精确标注并根据标注结果得到其他帧的分割结果;而无监督算法在执行时完全自动地对所有帧进行分割,不需要人工干预。现有的无监督算法多是基于超像素点或object proposal的帧间匹配,占用存储空间大,只能局限于部分场景下的对象分割,当存在光照突变、非刚性形变等复杂情形时分割精度则较差。现有的半监督算法大部分都是基于图论的算法,该类算法分割精度较高,但由于构建和求解图的计算量过大,使其需要较长的执行时间才能得到好的分割结果。随着深度学习的发展,将深度学习引入视频对象分割是目前CV界的的主要趋势之一。

深度学习应用于视频对象分割的挑战

深度学习在图像分割领域已经取得了巨大成功,无论在效率还是精度上都超过了很多传统的方法如基于图论的算法等。然而近几年将深度学习直接应用于视频对象分割领域的工作却很少,可能原因有两点:

1. 目前尚没有找到一种合理的方式去结合视频帧内和帧间的有效信息:已有的如conv-lstm是一种融合帧间信息的模型,但我们认为conv-lstm不适合做视频对象分割,因为在一般情形下,视频每一帧中的背景信息是远多于前景信息的,因而直接对区域进行卷积提取并进行 lstm 建模,得到的模型中含有过多的冗余信息,这些冗余信息会造成 lstm 训练过程的不稳定。此外,lstm训练时会消耗大量的存储空间和计算量,这在一定程度上限制了lstm的层数,但如果层数过少该模型则不能学习到表征时空域变化的目标信息。最近提出的基于深度学习的OSVOS、MaskTrack算法则另辟蹊径,它们都指出视频对象分割不需要帧间信息,而仔细分析能发现它们都有过拟合的可能性,这种可能性将直接导致模型不能很好地迁移到其他场景下,而且我们认为帧间信息是不可或缺的,不利用帧间信息的做法是不合理的;

2. 目前尚没有超大型的视频对象分割数据集——类比图像分类领域的ImageNet,目前仅有的完全标注的视频对象分割数据集为DAVIS和SegTrack v2,总计4000多帧,远不能用于训练大型的视频对象分割网络。

最新成果

上海交通大学图像所研究团队提出了一种基于双流深度编码-解码网络的视频对象分割算法,在一定程度上解决了上述两个问题,在分割精度和速度上均有着不错的表现,模型结构清晰合理,可实用性强。该算法是一种高效的无监督分割算法,在常用数据集DAVIS和SegTrack v2上都展现了不错的性能。

方法示意图

我们提出了一个双流深度编码-解码网络。图示中ImSeg-Stream对视频序列中的帧进行空间域的图像分割;MoSeg-Stream用于分割帧间运动信息,这里选择对应帧的光流场伪彩色图来表征运动信息;Integration部分的目的是通过学习的方式对前面两路分割得到的结果进行融合提升,最终得到更好的结果。网络的实现和训练细节如下:

1. 编码部分我们选择的是带有多采样融合形式的DeepLab v2网络,该网络能够很好地感知图像中的局部信息,进而高效地处理输入图像得到一个“粗”分割结果,即分辨率较低,同时分割得到的物体位置较明显,边界较光滑,细节不清晰; 解码部分我们采用循环卷积层RCL(Recurrent Convolutional Layer)对编码过程学习得到的分割结果和前面卷积层学习得到的结构化特征图进行融合改进,递归地细化分割结果的边缘和细节信息,最终得到一个“细”分割结果,该结果分辨率等同于输入图像。解码部分的过程如图所示。我们能看到多个循环连接使得子网络从输入层到输出层有多条路径,这能提升训练的效果。随着训练次数的增加,RCL中一个像素单元的有效感受野也在增加,使得该单元能够在不增加网络参数的前提下感知更多更广的上下文信息。因而RCL能够有效地结合局部信息和全局信息,使得细节能够进一步恢复。

解码过程

2. Integration部分的融合方式如图所示,在形式上有些简单,但实验证明这种方式能够有效提升之前两路输出的分割结果。我们在未来的工作中计划研究更多的方式以实现解释性更强、效果更好的融合过程。

融合部分

3. 训练这个大网络分三步:首先分别训练ImSeg-Stream和MoSeg-Stream,最后训练Integration部分。我们收集大型图像分割数据集训练ImSeg-Stream; 针对目前缺少大型视频分割数据集这一现状,我们提出通过筛选、处理视频物体检测数据集这一方案将大型视频物体检测数据集转化为光流场分割数据集,最终得到了10^4级的训练数据;在训练好ImSeg-Stream和MoSeg-Stream后,将它们作为预训练好的离线分割网络,在此基础上训练Integration,使用少量完全标注的训练数据训练该部分直至网络收敛。

下面的表格包含了该算法和当前代表性的部分算法在DAVIS和SegTrack v2数据集上的分割精度对比。

下图为该算法和当前最好的半监督和无监督算法在DAVIS数据集上的分割结果对比。

更多论文细节和实验分析详见论文:

Xu J, Song L, Xie R. Two-Stream Deep Encoder-Decoder Architecture for Fully Automatic Video Object Segmentation [C]// Visual Communications and Image Processing. IEEE, 2017:1-4.

下载链接:http://medialab.sjtu.edu.cn/publications/2017/VCIP2017_JWXu_Two-Stream%20Deep%20Encoder-Decoder%20Architecture%20for%20Fully%20Automatic%20Video%20Object%20Segmentation.pdf

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-12-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

机器学习:用初等数学解读逻辑回归

逻辑回归问题的通俗几何描述 逻辑回归处理的是分类问题。我们可以用通俗的几何语言重新表述它: 空间中有两群点,一群是圆点“〇”,一群是叉点“X”。我们希望从空间...

35415
来自专栏BestSDK

谷歌开放一种新的图像分类卷积神经网络模型

为了在该领域取得更多进展,今天我们非常高兴的宣布开放 Inception-ResNet-v2,这是一个在 ILSVRC 图像分类基准上取得顶尖准确率的卷积神经网...

2439
来自专栏AI研习社

循环神经网络的介绍、代码及实现

该文主要目的是让大家体会循环神经网络在与前馈神经网络的不同之处。 大家貌似都叫Recurrent Neural Networks为循环神经网络。 我之前是查维基...

3568
来自专栏统计学习方法

《统计学习方法》第八章-提升方法

在《统计学习方法》中第八章提升方法,包括四节,第一节介绍AdaBoost、第二节介绍AdaBoost的误差、第三节介绍从前向分布算法来实现AdaBoost、第四...

1966
来自专栏AI科技评论

深度 | Facebook翻译错误导致一名建筑工人被抓,机器翻译到底有多脆弱?

这是最近几年非常流行的一个句子,试试看能不能读懂—— “Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, i...

3305
来自专栏大数据挖掘DT机器学习

判别模型、生成模型与朴素贝叶斯方法

1、判别模型与生成模型 回归模型其实是判别模型,也就是根据特征值来求结果的概率。形式化表示为 ? ,在参数 ? 确定的情况下,求解条件概率 ? 。通俗的解...

3576
来自专栏决胜机器学习

​ 机器学习(九) ——构建决策树(离散特征值)

机器学习(九) ——构建决策树(离散特征值) (原创内容,转载请注明来源,谢谢) 一、概述 1、概念 决策树,这个概念是一个很常见的概念,应该是机器学习中最...

3725
来自专栏企鹅号快讯

Attribute-Enhanced F R with Neural Tensor Fusion Networks 阅读笔记

因为标题长度有限,所以把Face Recognition简写成F R,论文题目应为《Attribute-Enhanced Face Recognition wi...

3057
来自专栏机器之心

如何解读决策树和随机森林的内部工作机制?

选自 Pivotal 机器之心编译 参与:Panda 随机森林在过去几年里得到了蓬勃的发展。它是一种非线性的基于树的模型,往往可以得到准确的结果。但是,随机森林...

30310
来自专栏大数据挖掘DT机器学习

情感分析的新方法,使用word2vec对微博文本进行情感分析和分类

情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为利用一些情感得分指标来...

89810

扫码关注云+社区