前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >重新思考提高记忆覆盖的时空网络以实现高效的视频目标分割

重新思考提高记忆覆盖的时空网络以实现高效的视频目标分割

作者头像
用户1324186
发布2022-11-07 15:14:58
1.1K0
发布2022-11-07 15:14:58
举报
文章被收录于专栏:媒矿工厂

来源:NIPS 2021 作者:Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang 论文链接:https://arxiv.org/abs/2106.05210 代码链接:https://github.com/hkchengrex/STCN 内容整理:张育荣 针对视频目标分割问题,本文提出了一种简单而高效的方法对时空对应性 (space-time correspondence) 进行建模,能够直接得到帧间对应关系而不用对每个目标物体都进行mask features的re-encoding。

目录

  • 介绍
  • 主要相关工作
  • 实验方法
    • 特征提取
    • 记忆阅读
    • 记忆管理
  • 实验结果和结论

介绍

本文方法是对STM (Video object segmentation using space-time memory networks, ICCV2019) 的简化,想要得到匹配网络的极简形式,提升性能、减少记忆占用,更有效的利用 记忆网络中的信息。具体来说:传统的关联性的构建机制都像注意力机制一样是点乘+softmax,这种机制会让高置信度的节点一直主导 关联性而不考虑 query 特征,一些节点可能会被长时间抑制,让很大一部分记忆仓库都处在停摆阶段,显然有提高空间。本文用负欧式距离来代替点乘作为相似度衡量的依据,也将二者进行有效的协同,让性能提升更多。

主要相关工作

图1 STM框架

上图为 STM (Video object segmentation using space-time memory networks, ICCV2019) 的主要框架,本文介绍的 STCN 是在 STM 的框架基础上进行的优化网络。STM首次将记忆网络引入视频目标分割领域,引申为一个时空的记忆网络,并实现了较好的分割准确率以及较快的速度。STM的算法流程大致为:将前面的帧和掩码都保存在一个外部的记忆仓库中,当对当前帧预测掩码时,首先从记忆仓库中选出若干帧,将这些帧及其掩码输入到记忆编码器中,得到对应的 key 和 value;然后将当前帧输入到 query 解码器中,得到 query 的 key 和 value。随后将记忆的 key 和 query 的 key 进行内积运算以计算相似度,相当于一种时空的注意力机制,为不同时间和区域的 value 分配权重。将这个相似度图和记忆中的 value 相乘,这就是时空记忆阅读的结果,将该结果和 query 的 value 进行拼接,送入最后的解码器进行掩码的还原预测。

实验方法

图2 STCN框架

上图为 STCN 的网络结构。给定一段视频序列和第一帧的annotation,按照帧序处理视频并且维护 feature memory bank。当前帧为 query frame,通过 key encoder 得到其 key feature

k^Q

,将它与 memory bank 中的多个 key

k^M

进行比较,然后用 key affinities 从 memory 中检索回对应的 value features

v^M

(同样有多个,这里的多个既包含了多个 key 对应的 value 也包含一个 key 对应的多个 value)。

特征提取

与 STM 相同,STCN 也有两种编码器: key编码器和 value 编码器,前者以当前时刻的 RGB 图像作为输入,后者在字面上也是以前一时刻的RGB图像和各个物体对应的掩码作为输入,但是有很大差别,value 编码器所使用的前一时刻的 RGB 图像的 key 特征,然后再接收各个物体的掩码,产生每个掩码对应的 value,也就是说每个图像对应于其中的任何一个物体掩码,它的 key 特征 都是同一个,这一帧里有多少个物体,就会有多少个 value,但是只有一个 key 特征,而且这个 key 特征是上一时刻里 key 编码器 已经编码得到的,不用再次编码,所以对每个图像只用计算一次 key 特征,key 特征的计算并不依赖于掩码。value 编码器会先对掩码进行特征抽取,然后将 key 特征和掩码特征进行简单的融合,将 融合的结果通过两个残差块和一个 CBAM 块,才会产生最终的 value 特征。从上面这个过程也可以很明显的看出来 key 特征的计算不依赖于掩码。这样的原因在于相关性应该是直接在帧与帧之间产生的,而不应该引入掩码作为干扰。从另一个角度来说,这样的设计其实是使用了 Siamese 结构,而这个被广泛用于在 few-shot learning 中计算 key 特征。

在网络层数上,STM用了两个 ResNet50,而STCN用了一个 ResNet50 和一个 ResNet18,因为 value 编码器实际是接收了 mask 作为输入(图像的 key 特征是由 key 编码器产生的),而 key 特征实际接收的是 RGB 图像作为输入,去提取图像的特征肯定要比提取掩码的特征困难,所以 key 编码器的层数更深。除此以外,前一时刻的图像对应的 key 特征是否放进记忆仓库里取决于传播的过程。

记忆阅读

对于给定的 T 帧记忆帧和当前帧 query 帧,在特征提取阶段会生成如下内容:

k^Q

k^M

v^M

。首先计算关联矩阵:

\mathrm{S}_{\mathrm{ij}}=\mathrm{c}\left(\mathrm{k}_{\mathrm{i}}^{\mathrm{M}}, \mathrm{k}_{\mathrm{j}}^{\mathrm{Q}}\right).

而后进行 softmax 操作:

\mathrm{W}_{\mathrm{ij}}=\frac{\exp \left(\mathrm{S}_{\mathrm{ij}}\right)}{\sum_{\mathrm{n}}\left(\exp \left(\mathrm{S}_{\mathrm{nj}}\right)\right)}.

通过

\mathrm{v}^{\mathrm{Q}}=\mathrm{v}^{\mathrm{M}} \mathrm{W}

得到 query 帧的读出特征。

本阶段中相似度的计算采用负欧式距离的平方:

\mathbf{S}_{i j}^{\mathrm{L} 2}=-\left\|\mathbf{k}_i^M-\mathbf{k}_j^Q\right\|_2^2=2 \mathbf{k}_i^M \cdot \mathbf{k}_j^Q-\left\|\mathbf{k}_i^M\right\|_2^2-\left\|\mathbf{k}_j^Q\right\|_2^2

记忆管理

对每个记忆帧,存储它的两个信息:记忆 key 和记忆 value。STM把每5个 query 帧作为一个记忆帧,把前一时刻的帧作为暂时记忆帧来保证精确匹配,但是实际上这个所谓的暂时帧(即前一帧)的存在是没有必要的,甚至是有害的。删掉暂时帧这个模块减少了value 编码器的调用次数,能够提升速度,同时作者提到,虽然在后续实验中验证了这个模块是没有用的,但是为了保持一致性,还是将它保留了下来。

实验结果和结论

本文提出了STCN,一种简单、有效、高效的视频对象分割框架,提出使用直接的图像对图像对应,以提高效率和更稳健的匹配,并详细考察了关联性的内部工作原理–L2相似性的选择是由观察和相应实验得出的结果。STCN 以较高的效率在 DAVIS 和 YouTubeVOS 上实现了SOTA的结果。凭借其明显的技术优势,希望STCN能够成为未来工作一个新的基线。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 主要相关工作
  • 实验方法
    • 特征提取
      • 记忆阅读
        • 记忆管理
        • 实验结果和结论
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档