前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >第三届大型VOS挑战赛中排名第一!AOT将实例与Transformer相关联来同时统一匹配和解码多个实例

第三届大型VOS挑战赛中排名第一!AOT将实例与Transformer相关联来同时统一匹配和解码多个实例

作者头像
CV君
发布2022-09-01 11:00:09
7170
发布2022-09-01 11:00:09
举报

关注公众号,发现CV技术之美

本文分享一篇 NeurIPS 2021 的论文『Associating Objects with Transformers for Video Object Segmentation』,由浙江大学、百度、北京交通大学等联合提出一种将实例与Transformer(AOT)相关联的方法来同时统一匹配和解码多个实例。AOT模型在第三届大型VOS挑战赛中排名第一。

详细信息如下:

  • 论文链接:https://arxiv.org/abs/2106.02638

01

前言

本文探讨了如何在具有挑战性的多目标场景下实现更好、更高效的embedding learning,以解决半监督视频实例分割问题(Video Object Segmentation,VOS)。目前普通的方法都是对视频帧中每个单个实例进行解码,因此必须在多实例场景下分别匹配和分割每个实例,消耗多次计算资源。

为了解决这个问题,作者提出了一种将实例与Transformer(AOT)相关联的方法来同时统一匹配和解码多个实例。详细地说,AOT采用识别机制将多个实例关联到同一个高维特征空间中,因此,对于同时处理多个对象的匹配和分割解码,AOT就像处理单个对象一样高效。此外,为了充分模拟多实例的关联,AOT设计了长短期transformer来构建分层匹配和传播。

AOT模型在第三届大型VOS挑战赛中排名第一。

02

方法

目前最先进的视频实例分割算法在进行分割任务时,都是将视频帧中的每个实例遍历,再将结果汇总。如下图(a)所示,视频当前帧信息(current)与先验信息(reference)将被送入VOS 网络,在此期间,每个实例将被独立分别处理,最后再将每个实例的预测结果汇总,在进行多目标识别时,计算复杂度将随着实例数量增多而线性增多。在AOT端到端网络架构中,当前帧信息与先验信息将直接输入网络,并且直接输出最终的预测结果。

作者的AOT模型主要包含两个机制,分别是:多目标关联识别机制以及长短期transfroemr,以实现多目标的匹配与传播。

2.1Identification Mechanism for Multi-object Association :多目标关联的识别机制

为了实现多目标同时分割,就必须在输入端实现模型对于每个实例的识别。作者提出多目标关联的识别机制,其中,通过Identity Bank提前存储M个C维的身份向量以备选用,当输入的Mask信息中包含N个实例时(M>N),AOT通过一种随机筛选匹配机制,为N个实例随机匹配Identity Bank中的身份信息。以此来实现对每个输入Mask进行实例区分。

为了实现对身份的随机匹配,作者设计了筛选矩阵P,P ∈ {0, 1} N×M ,并且PPT是一个 M × M 的单位阵。

其中,Y ∈ {0, 1} THW×N ,为输入的Mask信息,N为实例数量。P ∈ {0, 1} N×M,为随机筛选矩阵。D ∈ RM×C为随机初始化的同一个特征空间下的身份信息,其中M为身份个数,C为每个身份的特征维度。通过上述公式,即可完成输入Mask的转变,E ∈ R THW×C ,即将原先的N个Mask信息都映射到C维特征空间中。

通过将Mask中的实例信息映射到同一特征空间中,并通过不同的特征向量进行区分,即可完成对不同实例的识别。

2.2 Long Short-Term Transformer for Hierarchical Matching and Propagation :长短期Transformer

普通的VOS方法通常只采用一层attention网络来对单个实例进行建模,作者提出了多层的长短期Transformer(LSTT)同时对多个实例进行建模。

Long-Term Attention (长期Attention网络) :用于将过去内存帧(包含参考帧和存储的预测帧)的目标信息映射到当前帧。由于当前帧和过去帧之间的时间间隔是可变的,因此很难保证时间平滑度。长期关注采用 non-local attention来实现信息的映射。

其中,Xtl表示第t帧第l个Block的输入frames,Xml表示记忆帧信息,Ym表示记忆帧的Mask信息。

Short-Term Attention(短期Attention网络):用于聚合每个当前帧位置的时空邻域中的信息。从直观感觉上,多个连续视频帧的图像变化始终是平滑和连续的,所以通过在当前帧的某个pixel上进行时(不同frames)空(不同的location)信息聚合来捕捉连续帧的领域信息。

其中p表示当前像素的位置,N(p) ∈ λ × λ 表示当前像素的领域像素。

03

实验

为验证AOT的有效性,作者使用了使用轻量级encoder:MobileNet-V2 以及decoder:FPN。空间邻域大小 λ 设置为 15,并且身份向量 数量M 设置为 10。

训练策略

训练分为两个阶段,先在静态图像数据集生成的视频序列中进行预训练,再在YouTube-VOS与DAVIS公开视频数据集上进行训练。

实验效果

在YouTube-VOS与DAVIS测试集与验证集上均取得SOTA性能。并且大幅提升了推理阶段的FPS。

由上分割结果可以看出,AOT在对多个相似实例进行分割时效果更好。

消融

分别对 M(ID Bank中的身份个数)、λ(短期attention领域像素尺寸)、n(短期attention时间维度帧数)、L(block number)、Positional embedding进行了消融对比实验。

04

结论

提出了一种新颖高效的视频实例分割方法,通过将实例与Transformer相关联,并在三个流行的 benchmarks测试上实现了卓越的性能。提出一种简单有效的识别机制,在多目标场景下对所有实例进行统一关联、匹配和解码。AOT首次通过使用识别机制证明了在VOS中处理多个对象可以有效地处理单个对象。此外,还设计了一个长短期tramsformer,用于构建VOS的实例匹配和传播。通过调整LSTT的层数,可以在精度与实时速度间进行平衡。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档