基于双流编码-解码深度网络的视频对象分割算法简介

背景介绍

视频对象分割(Video Object Segmentation),目的是将视频段中的物体连续地“抠”出来以得到视频每一帧的前景、背景分割结果。分割得到的结果可被用于更高级的识别、理解等计算机视觉任务,是目前基于内容的视频检索、视频编辑、视频自动标注的基础和关键环节。传统的视频对象分割算法有很多,根据在测试视频上执行是否需要人工标注可将其分为半监督算法和无监督算法两类。这里半监督算法在执行时需要人工对某些帧进行精确或非精确标注并根据标注结果得到其他帧的分割结果;而无监督算法在执行时完全自动地对所有帧进行分割,不需要人工干预。现有的无监督算法多是基于超像素点或object proposal的帧间匹配,占用存储空间大,只能局限于部分场景下的对象分割,当存在光照突变、非刚性形变等复杂情形时分割精度则较差。现有的半监督算法大部分都是基于图论的算法,该类算法分割精度较高,但由于构建和求解图的计算量过大,使其需要较长的执行时间才能得到好的分割结果。随着深度学习的发展,将深度学习引入视频对象分割是目前CV界的的主要趋势之一。

深度学习应用于视频对象分割的挑战

深度学习在图像分割领域已经取得了巨大成功,无论在效率还是精度上都超过了很多传统的方法如基于图论的算法等。然而近几年将深度学习直接应用于视频对象分割领域的工作却很少,可能原因有两点:

1. 目前尚没有找到一种合理的方式去结合视频帧内和帧间的有效信息:已有的如conv-lstm是一种融合帧间信息的模型,但我们认为conv-lstm不适合做视频对象分割,因为在一般情形下,视频每一帧中的背景信息是远多于前景信息的,因而直接对区域进行卷积提取并进行 lstm 建模,得到的模型中含有过多的冗余信息,这些冗余信息会造成 lstm 训练过程的不稳定。此外,lstm训练时会消耗大量的存储空间和计算量,这在一定程度上限制了lstm的层数,但如果层数过少该模型则不能学习到表征时空域变化的目标信息。最近提出的基于深度学习的OSVOS、MaskTrack算法则另辟蹊径,它们都指出视频对象分割不需要帧间信息,而仔细分析能发现它们都有过拟合的可能性,这种可能性将直接导致模型不能很好地迁移到其他场景下,而且我们认为帧间信息是不可或缺的,不利用帧间信息的做法是不合理的;

2. 目前尚没有超大型的视频对象分割数据集——类比图像分类领域的ImageNet,目前仅有的完全标注的视频对象分割数据集为DAVIS和SegTrack v2,总计4000多帧,远不能用于训练大型的视频对象分割网络。

最新成果

上海交通大学图像所研究团队提出了一种基于双流深度编码-解码网络的视频对象分割算法,在一定程度上解决了上述两个问题,在分割精度和速度上均有着不错的表现,模型结构清晰合理,可实用性强。该算法是一种高效的无监督分割算法,在常用数据集DAVIS和SegTrack v2上都展现了不错的性能。

方法示意图

我们提出了一个双流深度编码-解码网络。图示中ImSeg-Stream对视频序列中的帧进行空间域的图像分割;MoSeg-Stream用于分割帧间运动信息,这里选择对应帧的光流场伪彩色图来表征运动信息;Integration部分的目的是通过学习的方式对前面两路分割得到的结果进行融合提升,最终得到更好的结果。网络的实现和训练细节如下:

1. 编码部分我们选择的是带有多采样融合形式的DeepLab v2网络,该网络能够很好地感知图像中的局部信息,进而高效地处理输入图像得到一个“粗”分割结果,即分辨率较低,同时分割得到的物体位置较明显,边界较光滑,细节不清晰; 解码部分我们采用循环卷积层RCL(Recurrent Convolutional Layer)对编码过程学习得到的分割结果和前面卷积层学习得到的结构化特征图进行融合改进,递归地细化分割结果的边缘和细节信息,最终得到一个“细”分割结果,该结果分辨率等同于输入图像。解码部分的过程如图所示。我们能看到多个循环连接使得子网络从输入层到输出层有多条路径,这能提升训练的效果。随着训练次数的增加,RCL中一个像素单元的有效感受野也在增加,使得该单元能够在不增加网络参数的前提下感知更多更广的上下文信息。因而RCL能够有效地结合局部信息和全局信息,使得细节能够进一步恢复。

解码过程

2. Integration部分的融合方式如图所示,在形式上有些简单,但实验证明这种方式能够有效提升之前两路输出的分割结果。我们在未来的工作中计划研究更多的方式以实现解释性更强、效果更好的融合过程。

融合部分

3. 训练这个大网络分三步:首先分别训练ImSeg-Stream和MoSeg-Stream,最后训练Integration部分。我们收集大型图像分割数据集训练ImSeg-Stream; 针对目前缺少大型视频分割数据集这一现状,我们提出通过筛选、处理视频物体检测数据集这一方案将大型视频物体检测数据集转化为光流场分割数据集,最终得到了10^4级的训练数据;在训练好ImSeg-Stream和MoSeg-Stream后,将它们作为预训练好的离线分割网络,在此基础上训练Integration,使用少量完全标注的训练数据训练该部分直至网络收敛。

下面的表格包含了该算法和当前代表性的部分算法在DAVIS和SegTrack v2数据集上的分割精度对比。

下图为该算法和当前最好的半监督和无监督算法在DAVIS数据集上的分割结果对比。

更多论文细节和实验分析详见论文:

Xu J, Song L, Xie R. Two-Stream Deep Encoder-Decoder Architecture for Fully Automatic Video Object Segmentation [C]// Visual Communications and Image Processing. IEEE, 2017:1-4.

下载链接:http://medialab.sjtu.edu.cn/publications/2017/VCIP2017_JWXu_Two-Stream%20Deep%20Encoder-Decoder%20Architecture%20for%20Fully%20Automatic%20Video%20Object%20Segmentation.pdf

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-12-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

独家 | 一文读懂人工神经网络学习原理

原文标题: How do Artificial Neural Networks learn? 作者:rubikscode 翻译:和中华 校对:李海明 本文对人...

3764
来自专栏书山有路勤为径

目标跟踪与定位——Robot Localization

事件X可以有多个结果,称之为X1,X2,等; X的所有结果的概率必须加起来为1。例如,假设有两种可能的结果,X1和X2:

652
来自专栏量子位

DeepMind新论文:基于变分方法的自编码生成对抗网络

王小新 编译自 Arxiv 量子位 出品 | 公众号 QbitAI 最近,DeepMind公司的Mihaela Rosca、Balaji Lakshminara...

3096
来自专栏算法channel

朴素贝叶斯分类器:例子解释

在昨天推送了用一个例子引入贝叶斯公式的基本思想,然后用贝叶斯公式对一个很简单的问题做分类,最后引出来一个问题:后验概率 P(c | x) 的求解转化为求解 P(...

3526
来自专栏机器之心

机器学习算法如何调参?这里有一份神经网络学习速率设置指南

作者:Jeremy Jordan 机器之心编译 参与:黄小天、许迪 每个机器学习的研究者都会面临调参过程的考验,而在调参过程中,学习速率(learning ra...

2754
来自专栏量子位

GAN入门教程 | 从0开始,手把手教你学会最火的神经网络

安妮 编译自 O’Reilly 量子位出品 | 公众号 QbitAI 生成式对抗网络是20年来机器学习领域最酷的想法。 ——Yann LeCun 自从两年前...

4443
来自专栏人工智能

循环神经网络之LSTM

01 — 回顾 昨天推送了循环神经网络LSTM的前半部分,说到构成其网络模型:输入层包含一系列时序:x0, x1, ..., xt,隐含层是实现 Long-te...

1788
来自专栏机器之心

深度 | OpenAI发布「块稀疏」GPU内核:实现文本情感分析与图像生成建模当前最优水平

选自 OpenAI 作者:Durk Kingma、Scott Gray、Alec Radford 机器之心编译 参与:黄小天、刘晓坤 近日,OpenAI 在其一...

2746
来自专栏大数据智能实战

基于Tensorflow的VCTK语音识别例子测试

语音识别是深度学习早先攻克的几个领域之一。传统的基于HMM等的语音识别精度一直比较受限。但是深度学习还是给语音识别的精度带来了一个飞跃性的提高。本文在网上找了段...

2748
来自专栏大数据智能实战

空洞卷积与DeeplabV2实现图像语义分割的测试(tensorflow)

图像语义分割是对图像像素级理解的基础,也是图像处理的高阶操作。自从深度学习出来之后,已经有了不少的基于卷积网络的图像语义分割模型,如从全卷积网络到大型卷积核:深...

4119

扫码关注云+社区