前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR2021-《T2VLAD》-浙大&百度&悉尼科技提出用局部全局对齐来进行视频文本检索!效果优于MMT!

CVPR2021-《T2VLAD》-浙大&百度&悉尼科技提出用局部全局对齐来进行视频文本检索!效果优于MMT!

作者头像
CV君
发布2021-12-02 17:29:18
1.1K0
发布2021-12-02 17:29:18
举报

写在前面

文本视频检索是一项具有挑战性的任务,其目的是基于自然语言描述搜索相关的视频内容。这个问题的关键是在联合嵌入空间中测量文本视频的相似性。然而,大多数现有的方法只考虑全局交叉模态相似性,忽略局部细节。有些作品通过跨模态局部匹配和推理结合了局部比较。这些复杂的操作会带来巨大的计算量。

在本文中,作者设计了一种有效的全局-局部对齐方法 。多模态视频序列和文本特征通过一组共享语义中心自适应聚合。计算同一中心内的视频特征和文本特征之间的局部交叉模态相似性。这种设计实现了细致的局部比较,并降低了每个文本-视频对之间交互的计算成本。

此外,作者还提出了一种全局对齐方法,以提供与局部角度互补的全局跨模态测量。全局聚合的视觉特征还提供了额外的监督,这对于优化可学习语义中心是必不可少的。作者在三个标准文本视频检索基准上实现了一致的改进,并以明显的优势超越了SOTA水平。

1. 论文和代码地址

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

论文地址:https://arxiv.org/abs/2104.10054

代码地址:未开源

2. Motivation

视频由于其丰富的多模态内容和时间动态性而成为信息量最大的媒体之一。文本视频检索系统使人们能够通过简单自然的交互方式搜索视频。实现视频跨模态检索的一个方向是基于度量学习的文本视频相似性度量。

在这种情况下,通常的做法是将描述和视频都嵌入到联合嵌入空间中。大多数现有作品是将描述和视频内容编码为全局表示,并从全局角度比较它们的相似性。这些方法侧重于学习有效的语言和视频表示,但忽视了细粒度语义对齐

其他一些工作利用复杂的跨模态匹配操作来利用局部细节并对齐多个语义线索。他们手动设计了三个级别的语义,包括事件、动作和实体。然而,由于成对匹配操作代价昂贵,这些方法需要较高的计算成本

在本文中,作者提出了一种有效的文本-视频检索的全局-局部序列对齐方法。从局部角度 来看,作者的目标是利用一些可学习的语义主题来共同总结文本和视频。与将文本描述解析为分层语义角色图的方法不同,作者希望这些语义主题能够在端到端训练期间被发现并自动学习。

作者进一步共享文本主题和视频主题的权重,以提供联合主题表示学习,减少文本和视频数据之间的语义差距。为了实现局部对齐,作者最小化了分组文本特征和相同主题中相应的分组视频特征之间的距离。

全局角度来看,多模态视频序列在每个模态内时间维度上进行聚合。在聚合的视频特征和全局文本特征之间计算全局相似性。全局对齐不仅作为局部对齐的补充度量,而且还为可学习的语义主题提供额外的监督。

3. 方法

3.1. Overview

在本文中,作者提出了用于跨模态检索的Text-to-Video VLADT2VLAD ),它从全局和局部角度对齐文本和视频特征。给定一对文本-视频,模型的目标是将其编码到一个联合特征空间来度量相似度。如上图所示,作者利用了多个专家提取对应于每个模态的局部视频特征,利用BERT模型提取上下文词特征。

然后,作者将来自不同专家的所有视频特征送入到一个自注意力层,以增强基于跨模态关系的特征。输出的视频特征和文本特征被分配到一组聚类中心,这些聚类中心在文本编码和视频编码之间共享。

作者根据指定聚合局部特征,并生成视频和文本的局部对齐特征,以计算局部视频文本相似性。为了对局部对齐提供额外监督并引入补充信息,作者还制定了一个全局对齐方案

3.2. Video Representations

与图像数据相比,视频更复杂,包含更丰富的信息,如动作动、音频和语音。为了在文本视频检索任务中充分利用视频数据中的多模态信息,作者利用了多个专家对原始视频进行编码。

具体地说,给定一个输入视频,利用N个专家

来提取多模态特征。对每个专家进行特定任务的预训练,以获取相应模态的特定知识。本文的目标是实现文本视频检索的局部和全局对齐,因此作者从每个时间段提取特征。

对于每个专家,作者获得一组段级视频表示,即

其中T是视频段数,xi是视频的第t段。作者利用以下两个操作进一步处理分段级的多专家特征,以进行后续的全局-局部对齐。

global expert features for global alignment

全局专家特征的目标是为每个专家执行时间聚合,以生成用于全局对齐的全局专家特征。目前存在一些现有的时间聚合操作来获得全局向量,例如,CNN,Transformer和NetVLAD。

为简单起见,作者在不使用其他参数的情况下利用最大池化操作。这个简单的操作在实验中效果很好。将时间聚集的特征投影到同一维度以进行后续聚类。然后,作者通过Self-Gating机制增强了这些特征。因此,获得了一组全局专家特征

,其中是专家的数量。

fuse multi-expert features for local alignment

作者首先为每个专家使用一个全连接层,将不同的专家特征投影到C维嵌入空间。然后,将来自所有专家的特征concat起来,生成局部特征,

其中M表示来自所有专家的特征数量。

然后,作者进一步研究了多模态特征与自注意机制之间的关系。与MMT相比,有两点不同:

1)本文的方法只使用一层Transformer编码器,因此引入的参数更少,计算效率更高;

2) 本文的目标是保持输入特征的局部性。此过程的输出特征

与输入特征具有相同的长度。

3.3. Text Representations

BERT模型在语言特征编码方面显示了强大的泛化能力,因此作者利用了预训练的BERT模型。BERT模型为每个文本输入提取上下文单词嵌入。输入句子被标记并填充为固定长度的序列,然后输入到BERT模型中。

此外,作者添加了特殊token,如“[CLS]”和“[SEP]”,以指示句子的开始和结束。特征可以计算为,

其中

是BERT模型,S是输入token。

其中B是序列长度。

BERT模型

与框架中的其他模块以端到端的方式进行了优化。它提供了强大的文本建模能力。与视频编码不同,文本的全局特征与后续T2VLAD模块的局部表示联合提取。

3.4. Local Alignment

在上述文本编码和视频编码之后,作者为每个输入文本视频对获得B个局部上下文单词嵌入

和M个视频局部特征。

这些特征包含有关输入句子和视频的丰富信息。

然而,这两类特征之间的直接比较是不可行的,因为它们没有很好地对齐。此外,局部视频特征来自不同的模态。域gap增加了局部对齐的难度。

直观地说,如果能够选择并聚合同一主题的局部文本特征和视频特征,然后在比较他们的相似度,测量将变得更加精确。

基于这一思想,作者提出了文本到视频VLAD(T2VLAD) ,将多个模态中的局部特征与共享中心进行聚类。这些中心提供共享的语义主题,可以弥合不同模态之间的差距。这些中心可以与整个网络一起学习,并且可以动态执行特征聚类。

具体来说,作者学习了K+1个C维共享聚类中心。

这里的K个聚类中心用于局部对齐,附加的一个中心用于删除背景信息。然后使用点积计算每个局部特征和聚类中心之间的相似性。对于从视频特征的编码,给定一个局部视频特征,

它对第j个聚类的分配权重可以生成如下:

a_{i, j}=\frac{\exp \left(\boldsymbol{z}_{i}^{\text {video }} \boldsymbol{c}_{j}^{\top}+b_{j}\right)}{\sum_{k=1}^{K+1} \exp \left(\boldsymbol{z}_{i}^{\text {video }} \boldsymbol{c}_{k}^{\top}+b_{k}\right)}

其中是一个可学习的偏置项。在实践中,可以用BN代替偏差项,该层通过两个内置的可学习参数标准化和移位激活。然后得到每个中心上的聚类残差特征:

\boldsymbol{g}_{j}^{\text {video }}=\operatorname{normalize}\left(\sum_{i=1}^{M} a_{i, j}\left(\boldsymbol{z}_{i}^{\text {video }}-\boldsymbol{c}_{j}^{\prime}\right)\right)

其中,和具有相同尺寸的可训练权重,“normalize”表示ℓ2-标准化操作。然后就可以获得一组聚合的视频特征。

的每一个特征都是视频的局部特征对齐的。背景中心的聚合特征已被丢弃,并且不涉及以下相似度的计算。

可以使用共享聚类中心,以相同的方式计算聚合的文本特征:

\boldsymbol{g}_{j}^{\text {text }}=\operatorname{normalize}\left(\sum_{i=1}^{B} \frac{\exp \left(\boldsymbol{z}_{i}^{\text {text }} \boldsymbol{c}_{j}^{\top}+b_{j}\right)}{\sum_{k=1}^{K+1} \exp \left(\boldsymbol{z}_{i}^{\text {text }} \boldsymbol{c}_{k}^{\top}+b_{k}\right)}\left(\boldsymbol{z}_{i}^{\text {text }}-\boldsymbol{c}_{j}^{\prime}\right)\right)

其中,

是嵌入在

中的局部单词。我们可以获得文本序列的最终局部特征。

由于视频和文本的局部特征分配和聚合共享相同的中心,因此最终特征

可以有效地对齐。然后,利用余弦距离来度量最终视频和文本特征之间的局部相似性。

3.5. Global Alignment

作者引入全局对齐有两个原因。首先,文本-视频对的全局特征更全面,与局部特征互补 。其次,当缺乏辅助监控时,特别是当视频特征包含多模态信息时,模型难以优化与可训练中心的精细局部对齐

因此,作者通过独立地聚合和转换来自每个专家的视频特征,来缓解全局对齐中的优化困难。同时,作者利用局部文本特征的concat结果来生成特定于专家的全局文本表示。

然后使用每个特征计算与相应视频专家特征的相似度。具体来说,作者将全局文本-视频相似性计算为每个全局视频专家特征和相应文本特征之间余弦距离的加权和。形式上,全局相似性计算如下:

s_{\text {global }}=\sum_{i=1}^{N} w_{i} * \operatorname{dist}\left(\boldsymbol{F}_{i}^{\text {text }}, \boldsymbol{F}_{i}^{\text {video }}\right)

其中,wi表示第i个专家的权重。权重由文本表示

通过具有softmax归一化的线性投影生成。作者利用文本-视频相似度

在文本-视频和视频-文本检索任务上获得一个 bi-directional max-margin ranking loss。

4.实验

4.1. Comparison to State-of-the-art

MSRVTT

上表展示了本文方法在MSRVTT数据集上和SOTA方法的对比,可以看出,本文方法在不同的数据划分下,能够以很大的优势超越MMT。

ActivityNet Captions

上表展示了本文方法在ActivityNet 数据集上和SOTA方法的对比,可以看出本文的方法能够达到更高的性能。

LSMDC

上表展示了本文方法在LSMDC数据集上和SOTA方法的对比,可以看出本文的方法能够达到更高的性能。

4.2. Ablation Study

The effectiveness of the global-local alignment

上表展示了全局对齐和局部对齐的消融实验结果,可以看出,同时进行全局和局部建模能够达到更好的效果。

The effectiveness of collaborative VLAD

上表展示了不同VLAD的实验结果,可以看出共享VLAD能够达到更好的实验结果。

4.3. Qualitative Results

Visualization of the assignments

上图展示了不同聚类中心对齐的结果,结果验证了T2VLAD可以实现文本到视频检索的充分局部对齐。

Visualization of the text-to-video results

上图展示了MSRVTT 1K-A测试集上的文本视频检索结果。

5. 总结

本文介绍了一种端到端的文本视频序列对齐方法。作者发现,文本和视频之间的局部语义对齐对于高性能检索系统至关重要。作者还实现了基于NetVLAD的局部对齐目标,并将T2VLAD引入到协同文本视频编码中。

作者在三个标准文本视频检索基准测试进行了实验,证明了本文方法的有效性。此外,可视化结果也验证了联合语义主题学习的motivation。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3.1. Overview
  • 3.2. Video Representations
    • global expert features for global alignment
      • fuse multi-expert features for local alignment
      • 3.3. Text Representations
      • 3.4. Local Alignment
      • 3.5. Global Alignment
      • 4.1. Comparison to State-of-the-art
        • MSRVTT
          • ActivityNet Captions
            • LSMDC
            • 4.2. Ablation Study
              • The effectiveness of the global-local alignment
                • The effectiveness of collaborative VLAD
                • 4.3. Qualitative Results
                  • Visualization of the assignments
                    • Visualization of the text-to-video results
                    相关产品与服务
                    图像处理
                    图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档