专栏首页机器之心TPAMI 2021 | 时间走向二维,基于文本的视频时间定位新方法兼顾速度与精度

TPAMI 2021 | 时间走向二维,基于文本的视频时间定位新方法兼顾速度与精度

当时间的维度从一维走向二维,时序上的建模方式也需要相应的改变。本文提出了多尺度二维时间图的概念和多尺度二维时域邻近网络(MS-2D-TAN)用于解决视频时间定位的问题。本文拓展自 AAAI 2020 [1],并将单尺度的二维时间建模拓展成了一个多尺度的版本。新模型考虑了多种不同时间尺度下视频片段之间的关系,速度更快的同时精度也更高。本文在基于文本的视频时间定位任务中验证了其有效性。相关内容将发表在 TPAMI上。

时间可以是二维的吗?这是一个好问题!

我们常常将物理世界定义为三维空间,将时间定义为一维空间。但是,这不是唯一的定义方式。最近,罗切斯特大学和微软亚洲研究院的学者们大开脑洞,提出了一种新的时间表示方式,将时间定义成了二维的!

在二维空间里,时间是如何表达的呢?童鞋们给出的答案是这样的:在二维空间中,我们定义其中一个维度表示时间的开始时刻,另外一个维度表示持续的时间;从而,二维空间中的每一个坐标点就可以表达一个时间片段(例如,从 A 时刻开始持续 B 秒的时间片)。

在这种二维空间定义下,如果我们把单位时间刻度设置的越小,那么可以观测到时域上更加局部和微观的关系。而如果把单位时间刻度设置的较大,那么观测到的关系将更加全局和宏观。如果能有效地结合两者,将会对片段间的关系有更丰富的描述。

(参考自 https://www.msra.cn/zh-cn/news/features/aaai-2020-2d-tan)

基于文本的视频时间定位的目标是,给一段文字,在视频中找到文本所对应视频片段,并给出片段的开始时间和结束时间。如图 1 Query A 所示,给一段文字 「一个人吹起了萨克斯」和一段视频,这个任务希望找到与文字描述最匹配的那个片段。许多前人的工作都是独立考虑片段和文本之间的相似程度,而忽略了片段与片段之间的上下文信息。如图 1 Query C 所示,为了定位「这个人再一次吹起了萨克斯」, 如果只看后半段的视频是很难定位「再」 这个词的。此外,如图 1 Query B 所示, 很多高度重合的片段有相似的内容,如果不对这些片段进行对比的话,很难区分哪个片段与文字描述最匹配。

为了解决这一问题,该研究在 AAAI 2020 的论文中提出了一个二维时域邻近网络(2D-TAN)。该网络的核心思想是在一个二维时间图上做视频的时间定位。如图 1(a)所示,图中(i,j) 表示的是一个从 i 开始持续 j+1 的时间片段。对于不同长度的片段,我们可以通过坐标上的远近来定义他们之间的邻近关系。有了这些关系,我们就可以用 2D-TAN 对这种依赖关系进行建模。此外,因为 2D-TAN 是将这些片段当成一个整体来考虑,学出来的片段特征也更具有区分性。

  • 论文地址:https://arxiv.org/abs/2012.02646
  • 代码地址:https://github.com/microsoft/2D-TAN/tree/ms-2d-tan

这里二维时间图的单位时间长度τ决定了定位精细程度。为了让定位更精细,该研究设计了一个多尺度的二维时间图,如图1(b) 。该研究选取不同的单位时间长度来构造不同精细度的二维时间图。这种方式可以让模型在更大的时间范围上学习片段间的依赖关系,同时也让每个片段获得更丰富的上下文信息。另一个好处是,这种多尺度建模也可以看作是一种稀疏采样的方式,从而降低片段特征抽取和片段间建模所带来的计算开销,将计算复杂度从二次方降到了线性 。

图 1 二维时间图的示意图。(a) 表示的是稠密单尺度二维时间图。黑色坐标轴分别表示的是开始和时长的标号,而灰色坐标轴表示的是与之对应的开始时刻和持续时间。二维图中红色的程度表示目标片段和候选片段的匹配程度。这里是一个预先定义好的单位时长。白色格子表示无效的视频片段。(b)表示的是稀疏多尺度二维时间图。稀疏多尺度二维时间图由多个二维时间图构成,各个二维时间图的单位时长不相同()。灰色格子表示有效但非候选的视频片段。其他颜色定义同上。通过在多个小尺寸图上建模,可以减少计算开销。

下面我们将具体介绍该方法。

多尺度二维时域邻近网络(MS-2D-TAN)

本文提出的模型如图 2 所示。该模型由三个模块构成:文本编码模块,视频的二维时间特征图模块和多尺度二维时间邻近网络。下文将逐一介绍各个模块。

图 2 MS-2D-TAN 的框架示意图。

语句的文本特征

该研究首先将各个单词用 GloVe 进行编码,再输入到 LSTM 中。该研究将 LSTM 的输出取平均作为语句的特征向量。

视频的二维时域特征图

该研究首先将视频分割成N个小的单元片段(clip),再通过预训练好的模型将这些片段抽取特征,大小是N×d^V。候选片段由多个连续的单元片段所构成,且长度并不相同。为获取统一的片段特征的表示,该研究将抽取好的单元片段特征通过叠加卷积的方式获得所有候选片段特征。再根据每个候选片段的开始时刻和持续时间,将所有的候选片段排列成一个二维特征图。

当研究人员使用N - 1 个卷积层可获得所有有效片段的特征。但当N较大时,这样的计算开销也往往较大。因此,该研究采用了一个稀疏采样的方式。如图 2 所示,该研究对较短的片段进行密集的采样,而对较长的片段进行稀疏采样。先用 A 层步长为 1,核尺寸为 2 的卷积获得短片段的特征,之后每隔 A/2 个卷积层,步长增加一倍,逐步获得较长片段的特征。通过这种方式可以不用枚举出所有的片段,从而降低计算开销。前者获得的二维特征图我们称之为稠密二维特征图,而后者则称之为稀疏二维特征图。

通过多尺度二维时间邻近网络定位

有了视频的稀疏二维特征图(图 2 中蓝色立方体)和文本特征(图 2 中黄色立方体),该研究将其进行融合,获得融合的稀疏二维特征图(图 2 中绿色立方体)。该研究再根据不同的时间尺度,将单一尺度的稀疏二维特征图,转化成一组稀疏的多尺度二维特征图。对于每个尺度的二维特征图,该研究使用一系列的 gated convolution 对每个片段和其邻近片段的关系进行建模,并通过一个全联接层获得各尺度中各片段最终的得分。

训练和测试

在训练过程中,每一个尺度都会有一个对应的损失函数,该研究将二元交互熵 (Binary Cross Entropy) 作为模型的损失函数,同时使用一个经过线性变换的 IoU (intersection over union)的值作为损失函数中的标签。该研究将所有的损失函数加在一起作为整个模型的损失函数。

在测试时,该研究根据特征的位置,得到每个片段的得分,并根据 NMS 对其进行筛选。如果一个片段存在于多个得分图中,那么选取最高的得分作为其得分。

实验结果

该研究在 Charades-STA [2], ActivityNet Captions [3] 和 TACoS [4] 三个数据集上评测。实验结果如表 1-3 所示。为了公平对比,该研究使用了和前人方法相同的视频和文本特征,且所有模型的超参保持一致。从实验结果中,无论使用哪种特征,该研究提出的 MS-2D-TAN 方法均能获得前两位的成绩。而在某些数据集上,进一步调整超参可以获得更好的性能,如表 3 的 MS-2D-TAN*。

表 1 Charades-STA 的实验结果

表 2 ActivityNet Captions 的实验结果

表 3 TACoS 的实验结果

时间和内存的开销

该研究还对比了时间和内存的开销。图 3 中对比了稠密单尺度二维特征图,稀疏单尺度二维特征图 [1] 以及本文提出的稀疏多尺度二维特征图。可以发现在当视频长度较长时,使用稀疏多尺度二维特征图可以大幅减少时间和内存的开销。在图 4 中该研究也与其他方法在 TACoS 上进行了对比。当研究人员使用一个隐层参数量较小的模型 MS-2D-TAN (Small) 时, 该研究的方法可以在保证速度和内存开销稍小的前提下,比其他方法获得更高的精度。而使用较大参数量的 MS-2D-TAN 可以进一步提高精度。

图 3 三种不同二维特征图时间开销的对比。N 表示多少个单元片段(clip)

图 4 与其他方法的时间和内存开销对比

结语

本文针对基于文本的视频时间定位提出了一种全新的多尺度二维时间表示方式并提出了一种新的多尺度时域邻近网络(MS-2D-TAN)。该模型可以很好的利用邻近时域的上下文信息,并学出有区分性的视频片段特征。该研究的模型设计简单,也同时在三个数据集上取得了有竞争力的结果。

参考文献:

[1] Songyang Zhang, Houwen Peng, Jianlong Fu, Jiebo Luo, “Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language”, AAAI 2020

[2] Jiyang Gao, Chen Sun, Zhenheng Yang and Ram Nevatia, “TALL: Temporal activity localization via language query”, ICCV2017

[3] Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles, “Dense-Captioning Events in Videos”, ICCV 2017

[4] Michaela Regneri, Marcus Rohrbach, Dominikus Wetzel, Stefan Thater, and Bernt Schiele, and Manfred Pinkal, “Grounding action descriptions in videos”, TACL 2013

文章分享自微信公众号:
机器之心

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

如有侵权,请联系 yunjia_community@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 基于知识锚点进化的AutoML,深度赋智IEEE TPAMI论文解读

    2020 年 4 月,深度赋智使用全自动机器学习框架获得了国际自动机器学习领域的顶级赛事 NeurIPS-AutoDL 的冠军,并在图像、音频、视频、文本、表格...

    机器之心
  • 2021腾讯犀牛鸟精英科研人才培养计划课题(八)——视觉及多媒体计算

    12月11日,2021年腾讯犀牛鸟精英科研人才培养计划正式对外发布。计划截止申报时间为2021年1月28日24:00。 本年度精英科研人才计划将延续人工智能领...

    腾讯高校合作
  • 2020腾讯犀牛鸟精英人才培养计划课题介绍(八)——视觉及多媒体计算

    精英人才培养计划是一项校企联合人才培养项目,入选学生将受到业界顶尖技术团队与高校导师的联合指导及培养。培养期间,学生将获得3个月以上到访腾讯开展科研访问的机会,...

    腾讯高校合作
  • 深度赋智NeurIPS-AutoDL系列竞赛世界冠军方案首次公开! | TPAMI

    导读:「深度赋智」斩获了NeurIPS-AutoDL 2019系列竞赛总决赛世界冠军,在图像/音频/视频/文本/表格不同场景的十个数据集上稳定获得八项第一和均分...

    AI科技评论
  • 5年时间,目标跟踪算法的进化史

    第一部分:目标跟踪速览 先跟几个SOTA的tracker混个脸熟,大概了解一下目标跟踪这个方向都有些什么。一切要从2013年的那个数据库说起。。如果你问别人近几...

    BestSDK
  • 加速狂奔的OTT,亟待回答的“信息安全”新考题

    作者 | 曾响铃 文 | 响铃说(xiangling0815) 随着大屏端的营销优势持续释放,OTT正在迎来新的发展加速期。 一方面,国内OTT终端激活量仍在...

    曾响铃
  • 计算机视觉中,有哪些比较好的目标跟踪算法?(上)

    相信很多来这里的人和我第一次到这里一样,都是想找一种比较好的目标跟踪算法,或者想对目标跟踪这个领域有比较深入的了解,虽然这个问题是经典目标跟踪算法,但事实上,可...

    AI研习社
  • 中科院步态识别技术:不看脸 50米内在人群中认出你!

    如果你觉得好的话,不妨分享到朋友圈。 导语:新华社北京10月2日电(记者董瑞丰)中国科学院自动化所的专家日前介绍了一种新兴的生物特征识别技术——步态识别:只看走...

    IT派
  • 直播预告|12月23日,腾讯light论坛与你一同探寻“可持续”未来

    科技发展在便利生活的同时,也带来了诸多思考——如何利用技术带来更多公益保护?技术能否给生态环保带去更多可能?我们有没有可能让技术更具“人情”?腾讯light一直...

    腾讯云AI
  • 直播预告|12月23日,腾讯light论坛与你一同探寻“可持续”未来

    科技发展在便利生活的同时,也带来了诸多思考——如何利用技术带来更多公益保护?技术能否给生态环保带去更多可能?我们有没有可能让技术更具“人情”?腾讯light一直...

    腾讯云开发TCB
  • 腾讯年度盛会丨惊喜大剧透!加速构建全真互联时代的音视频“新基建”

    导语丨随着移动互联网和音视频通信技术的快速发展,人与人、人与万物连接的方式从线下走向线上,从虚拟走向全真时代。在线课堂、远程会议、电商直播......越来越多的...

    腾讯云音视频
  • 直播预告|12月23日,腾讯light论坛与你一同探寻“可持续”未来

    科技发展在便利生活的同时,也带来了诸多思考——如何利用技术带来更多公益保护?技术能否给生态环保带去更多可能?我们有没有可能让技术更具“人情”?腾讯light一直...

    腾讯云TI平台
  • “遇冷”的电影节背后:“元宇宙”能为其成功“续热”吗?

    据《每日经济新闻》发布的电影产业白皮书数据显示,截至12月22日,2021年中国电影总票房达460亿元。不管是年初春节档的《唐人街探案3》与《你好,李焕英》,还...

    用户2908108
  • 当春乃发「声」,机器之心AI科技年会嘉宾揭晓

    时在中春,阳和方起。机器之心「AI科技年会」将于3月23日举办。 本次活动分为三场论坛:人工智能论坛、AI x Science 论坛和首席智行官大会。由于疫情原...

    机器之心
  • 多篇论文被顶会收录,腾讯广告推荐团队AI实力获国际认可

    导读/ Introduction 近期,国际机器学习大会(ICML)、国际数据挖掘与知识发现大会(KDD)、国际计算机协会信息检索大会(SIGIR)等机器学习、...

    腾讯大数据
  • ICCV 2021 | UCLA提出:基于张量CUR的快速鲁棒张量主成分分析算法

    作者 | HanQin Cai, Zehan Chao, Longxiu Huang

    AI科技评论
  • 「背叛」激光雷达第三年:百度纯视觉无人驾驶技术迈入产品化阶段

    2019年,当百度自动驾驶工程师为Mobileye纯视觉DEMO效果惊叹不已时,不会想到一切来得这么快。

    量子位
  • 短视频营销战役,To B 企业如何突围?

    文章整理自崔牛时间,由腾讯SaaS加速器二期同学企业“销售易”副总裁鲁扬带来的主题分享“ To B 企业短视频营销实战 ”,经牛透社频道整理并提取了其中主要信息...

    腾讯SaaS加速器
  • 计算机视觉中,目前有哪些经典的目标跟踪算法?

    【新智元导读】这篇文章将非常详细地介绍计算机视觉领域中的目标跟踪,尤其是相关滤波类方法,分享一些作者认为比较好的算法。 相信很多来这里的人和我第一次到这里一样,...

    新智元

扫码关注云+社区

领取腾讯云代金券