前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Salesforce AI Research Propose 'ALPRO':一种新的视频和语言表示学习(预训练)框架

Salesforce AI Research Propose 'ALPRO':一种新的视频和语言表示学习(预训练)框架

作者头像
代码医生工作室
发布2022-06-07 17:57:59
5590
发布2022-06-07 17:57:59
举报
文章被收录于专栏:相约机器人

本文是 Marktechpost 工作人员根据研究论文“对齐和提示:使用实体提示进行视频和语言预训练”的总结。这项研究的所有功劳归于该项目的研究人员。

考虑一下现实世界中的动态和多样化的人类接触。毫无疑问每个人都在一个忙碌的世界中进行口头互动,视频和语言在持续的基础上扮演着至关重要的相互关联的角色。例子包括一个人与朋友一起喝啤酒时的足球评论,关于黑客帝国的危险问题,以及地狱厨房电视节目中呈现的不为人知的食谱。

换句话说,视频和语言内容在数字时代已经无处不在。它们每天 24 小时不间断地在我们身边。人们似乎很容易吸收这种视频和文本内容的洪流。

具体来说,鉴于视频和语言在现实世界中的普遍存在,一个基本的科学问题出现了:如何设计能够同时解释视频材料和人类语言的人工智能系统?

许多实际应用需要 AI 模型同时理解这两种模式。因此开发这样的模型至关重要。一个例子是基于内容的视频搜索,即使在没有文本信息的情况下,它也允许搜索许多互联网视频。另一个用途是视频分类和推荐,模型可以通过分析视频内容和书面描述来对视频进行分类。这将促进个性化的视频搜索和推荐。

视觉语言预训练 (VLP) 技术

视觉语言或视频和语言预训练 (VLP) 技术最近已成为解决这一 AI 难题的有效方法。

使用 VLP 方法,神经网络最初是在许多基于 Web 的视频-文本对上进行预训练的。尽管其中一些网络数据可能有噪声,但神经网络可以获得下游应用程序的有效表示。

在预训练之后,神经网络的参数被用作微调的初始化。

限制和机会

尽管改进令人鼓舞,但现有的 VLP 模型在各种方面都受到限制,包括首先视频和文本嵌入没有适当对齐。在现有研究中,可以以多种方式对跨模态对齐进行建模。例如一些工作通过取它们之间的点积来最大化来自同一视频-文本对的单峰嵌入之间的相似性。另一个工作组将单模态嵌入直接传递给跨模态编码器,希望跨模态编码器能够自动捕获对齐关系。然而由于单独的编码器网络产生这些视频和文本的单峰嵌入,它们的嵌入位于不同的特征空间中。因此这两种方法都不能有效地模拟跨模态对齐。

缺乏细粒度的视频数据:其次大多数基于视觉的预训练任务没有明确地对细粒度的区域视觉数据进行建模。但是此信息对于理解视频内容是必不可少的。之前的一些努力(例如 ActBERT)使用对象检测器来创建伪标签作为监督。具体来说将 Faster-RCNN 应用于视频帧以生成对象标签。然后使用这些标签监督预训练模型。例如MSCOCO 对象检测数据集包含不到一百个不同的对象分类。这严重限制了 VLP 模型学习大量对象和实体概念的能力。简而言之VLP 模型受到检测不精确和对象类别数量有限的困扰。

ALPRO(对齐和提示)

对齐和提示(ALPRO)是一种新的视频和语言表示学习(预训练)方法,已被提出来解决先前的工作限制。

ALPRO 遵循前面描述的 VLP 技术中使用的“预训练然后微调”范式,但克服了它们的缺点。该方法在采样不佳的视频帧上运行,并在没有显式目标检测器的情况下实现更有效的跨模态对齐。

新策略的最终目标是提高后续任务的性能,例如视频文本检索和视频问答(视频 QA)。正如 ALPRO 中所提出的,增强的预训练技术可以增强视频语言表示,有助于提高后续任务的性能。

在 ALPRO 中生成的预训练模型在两个经典任务的四个公共数据集上实现了最先进的性能:视频文本检索和视频质量保证。该策略大大超过了过去的工作,并且比竞争对手的方法更具标签效率。

方法

独特的 ALPRO 方法由两个主要模块组成:视觉语言预训练模型和提示器(见上图)。提示器创建软实体标签,用于监督视频语言模型的预训练。每个模块都有其视频编码器(TimeSformer)和文本编码器(BERT 的前六层),用于从视频和文本输入中提取特征。预训练模型包含一个额外的多模态编码器(BERT 的最后六层),以精确捕捉两种模态之间的交互。

预训练任务 1:对比视频文本对象到跨模态对齐

在将特征从单模编码器传输到多模编码器之前,已经应用了视频文本对比(VTC)来进行损失以对齐特征。这是通过鼓励来自正对的视频和文本的嵌入与负对更具可比性来实现的。在对它们的交互进行建模之前,这可以确保交叉编码器接收到更好匹配的单峰嵌入。

预训练任务 2:启动实体建模 (PEM) 以捕获精确的视频数据

PEM 是一种新的基于视觉的预训练任务,可增强模型捕获区域和本地数据的能力。PEM 精确地依赖于一个提示器模块,该模块为多达一千个不同的实体类别提供软伪标签以进行随机视频裁剪。给定伪标签作为目标,然后要求预训练模型预测实体类别。

为了构建伪标签,提示器将选定的视频裁剪与所谓的“实体提示”列表进行比较。“A video of ENTITY”是一个实体提示的例子,其中 ENTITY 是一个经常出现在预训练语料库中的名词。因此,通过添加更多实体提示来扩展更多实体类别。

比较

如下表所示,ALPRO 在用于视频文本检索和视频 QA 任务的四个标准视频语言下游数据集上实现了最先进的性能。

ALPRO 在广泛使用的视频文本检索数据集 MSRVTT 上优于以前的最佳检索模型 FiT。

在视频质量保证方面,ALPRO 使用 QA 特定域预训练对获得与 VQA-T 相同的结果。

与 ALPRO 相比,ALPRO 的标签效率要高得多,它仅使用早期方法所需的预训练数据的 5-10% 即可实现更高的性能。

道德考量

  • 预训练视频文本语料库是从网络上编译的,以减少接触不适当信息的机会。该内容通常是在没有人充分控制的情况下生成的。因此ALPRO 可能会接触到不合适的视频内容或危险文献。还希望使用特定于生产的多模态数据对 ALPRO 进行预训练和微调,以缓解该问题。
  • 与主要关注点类似,在部署该技术之前应进行进一步的分析和训练。由于预训练的视频文本语料库是从互联网上获取的,它也容易受到数据偏差的影响。这种偏差可能存在于对象检测、文本编码器或视频编码器中。
  • 由于模型架构和数据处理管道的细致优化,训练 ALPRO 需要适量的计算资源。训练的总成本约为数百个 A100 GPU 小时。提供预训练模型以防止最终用户重复预训练工作以促进生态友好型人工智能系统。
  • 隐私问题:预训练的视频语言数据可能包含身份敏感数据,例如指纹。可以检查没有人类身份的替代预训练来源来解决这个问题(例如,参见关于没有人类的自我监督预训练的工作 [2])。此外预处理预训练语料库可以采用匿名措施来避免识别泄漏。

结论

ALPRO(对齐和提示)是一种新颖的视频和语言预训练系统,它提供了一种通用但有效的学习视频文本表示的方法。ALPRO 遵循其他 VLP 系统使用的“预训练然后微调”范式,但克服了它们的局限性。

ALPRO 在四个公共数据集的两个经典任务(视频文本检索和质量评估)上实现了最先进的性能,同时比竞争方法的标签效率显着提高。

开发一个可以同时推理视频和语言的 AI 模型是必不可少的,因为许多实际应用需要该模型来理解这两种模式。一个例子是基于内容的视频搜索,即使在没有文本信息的情况下,它也允许搜索许多互联网视频。另一个用途是视频分类和推荐,模型可以通过分析视频内容和书面描述来对视频进行分类。这将促进个性化的视频搜索和推荐。

https://arxiv.org/pdf/2112.09583.pdf

https://github.com/salesforce/alpro

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档