重新思考提高记忆覆盖的时空网络以实现高效的视频目标分割

用户1324186

发布于 2022-11-07 15:14:58

1.4K0

来源：NIPS 2021 作者：Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang 论文链接：https://arxiv.org/abs/2106.05210 代码链接：https://github.com/hkchengrex/STCN 内容整理：张育荣针对视频目标分割问题，本文提出了一种简单而高效的方法对时空对应性 (space-time correspondence) 进行建模，能够直接得到帧间对应关系而不用对每个目标物体都进行mask features的re-encoding。

介绍
主要相关工作
实验方法
- 特征提取
- 记忆阅读
- 记忆管理
实验结果和结论

介绍

本文方法是对STM (Video object segmentation using space-time memory networks, ICCV2019) 的简化，想要得到匹配网络的极简形式，提升性能、减少记忆占用，更有效的利用记忆网络中的信息。具体来说：传统的关联性的构建机制都像注意力机制一样是点乘+softmax，这种机制会让高置信度的节点一直主导关联性而不考虑 query 特征，一些节点可能会被长时间抑制，让很大一部分记忆仓库都处在停摆阶段，显然有提高空间。本文用负欧式距离来代替点乘作为相似度衡量的依据，也将二者进行有效的协同，让性能提升更多。

主要相关工作

图1 STM框架

上图为 STM (Video object segmentation using space-time memory networks, ICCV2019) 的主要框架，本文介绍的 STCN 是在 STM 的框架基础上进行的优化网络。STM首次将记忆网络引入视频目标分割领域，引申为一个时空的记忆网络，并实现了较好的分割准确率以及较快的速度。STM的算法流程大致为：将前面的帧和掩码都保存在一个外部的记忆仓库中，当对当前帧预测掩码时，首先从记忆仓库中选出若干帧，将这些帧及其掩码输入到记忆编码器中，得到对应的 key 和 value；然后将当前帧输入到 query 解码器中，得到 query 的 key 和 value。随后将记忆的 key 和 query 的 key 进行内积运算以计算相似度，相当于一种时空的注意力机制，为不同时间和区域的 value 分配权重。将这个相似度图和记忆中的 value 相乘，这就是时空记忆阅读的结果，将该结果和 query 的 value 进行拼接，送入最后的解码器进行掩码的还原预测。

实验方法

图2 STCN框架

上图为 STCN 的网络结构。给定一段视频序列和第一帧的annotation，按照帧序处理视频并且维护 feature memory bank。当前帧为 query frame，通过 key encoder 得到其 key feature

k^Q

，将它与 memory bank 中的多个 key

k^M

进行比较，然后用 key affinities 从 memory 中检索回对应的 value features

v^M

（同样有多个，这里的多个既包含了多个 key 对应的 value 也包含一个 key 对应的多个 value）。

特征提取

与 STM 相同，STCN 也有两种编码器: key编码器和 value 编码器，前者以当前时刻的 RGB 图像作为输入，后者在字面上也是以前一时刻的RGB图像和各个物体对应的掩码作为输入，但是有很大差别，value 编码器所使用的前一时刻的 RGB 图像的 key 特征，然后再接收各个物体的掩码，产生每个掩码对应的 value，也就是说每个图像对应于其中的任何一个物体掩码，它的 key 特征都是同一个，这一帧里有多少个物体，就会有多少个 value，但是只有一个 key 特征，而且这个 key 特征是上一时刻里 key 编码器已经编码得到的，不用再次编码，所以对每个图像只用计算一次 key 特征，key 特征的计算并不依赖于掩码。value 编码器会先对掩码进行特征抽取，然后将 key 特征和掩码特征进行简单的融合，将融合的结果通过两个残差块和一个 CBAM 块，才会产生最终的 value 特征。从上面这个过程也可以很明显的看出来 key 特征的计算不依赖于掩码。这样的原因在于相关性应该是直接在帧与帧之间产生的，而不应该引入掩码作为干扰。从另一个角度来说，这样的设计其实是使用了 Siamese 结构，而这个被广泛用于在 few-shot learning 中计算 key 特征。

在网络层数上，STM用了两个 ResNet50，而STCN用了一个 ResNet50 和一个 ResNet18，因为 value 编码器实际是接收了 mask 作为输入（图像的 key 特征是由 key 编码器产生的），而 key 特征实际接收的是 RGB 图像作为输入，去提取图像的特征肯定要比提取掩码的特征困难，所以 key 编码器的层数更深。除此以外，前一时刻的图像对应的 key 特征是否放进记忆仓库里取决于传播的过程。

记忆阅读

对于给定的 T 帧记忆帧和当前帧 query 帧，在特征提取阶段会生成如下内容：

k^Q

、

k^M

和

v^M

。首先计算关联矩阵：

\mathrm{S}_{\mathrm{ij}}=\mathrm{c}\left(\mathrm{k}_{\mathrm{i}}^{\mathrm{M}}, \mathrm{k}_{\mathrm{j}}^{\mathrm{Q}}\right).

而后进行 softmax 操作：

\mathrm{W}_{\mathrm{ij}}=\frac{\exp \left(\mathrm{S}_{\mathrm{ij}}\right)}{\sum_{\mathrm{n}}\left(\exp \left(\mathrm{S}_{\mathrm{nj}}\right)\right)}.

通过

\mathrm{v}^{\mathrm{Q}}=\mathrm{v}^{\mathrm{M}} \mathrm{W}

得到 query 帧的读出特征。

本阶段中相似度的计算采用负欧式距离的平方：

\mathbf{S}_{i j}^{\mathrm{L} 2}=-\left\|\mathbf{k}_i^M-\mathbf{k}_j^Q\right\|_2^2=2 \mathbf{k}_i^M \cdot \mathbf{k}_j^Q-\left\|\mathbf{k}_i^M\right\|_2^2-\left\|\mathbf{k}_j^Q\right\|_2^2

记忆管理

对每个记忆帧，存储它的两个信息：记忆 key 和记忆 value。STM把每5个 query 帧作为一个记忆帧，把前一时刻的帧作为暂时记忆帧来保证精确匹配，但是实际上这个所谓的暂时帧（即前一帧）的存在是没有必要的，甚至是有害的。删掉暂时帧这个模块减少了value 编码器的调用次数，能够提升速度，同时作者提到，虽然在后续实验中验证了这个模块是没有用的，但是为了保持一致性，还是将它保留了下来。

实验结果和结论

本文提出了STCN，一种简单、有效、高效的视频对象分割框架，提出使用直接的图像对图像对应，以提高效率和更稳健的匹配，并详细考察了关联性的内部工作原理–L2相似性的选择是由观察和相应实验得出的结果。STCN 以较高的效率在 DAVIS 和 YouTubeVOS 上实现了SOTA的结果。凭借其明显的技术优势，希望STCN能够成为未来工作一个新的基线。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-10-17，如有侵权请联系 cloudcommunity@tencent.com 删除

tcp/ip

本文分享自媒矿工厂微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

tcp/ip

登录后参与评论

0 条评论

热度