【论文】所见所想所真,对抗学习GAN提升跨模态检索效果!阿里巴巴AI Labs等团队最新工作

【导读】近日,新加坡南洋理工大学、美国莱斯大学和阿里巴巴AI Labs联合提出了一种采用生成模型(Generative Models)来提升跨模态检索效果的方法。该方法在文本-视觉卷积跨模态特征表示中引入了图像-文本生成和文本-图像生成两种模型,使得最终的提出的生成式跨模态特征学习框架(generative cross-modal feature learning framework,GXN)不仅可以学习到高层的全局的抽象表示,还能有效地学习到局部的底层特征表示来捕捉两个模态之间精细的局部相似度。该方法在MSCOCO数据集上超过了现有的最好的方法。

论文:Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models

▌摘要


视觉-文本跨模态检索已经成为计算机视觉和自然语言处理领域的一个热点。为多模态数据学习出一个合适的表示空间对跨模态检索极其重要。不同于现有的将图像-文本对表示为单个的特征对并嵌入到一个公共表示空间的方法,这篇文章提出融合生成过程到跨模态表示中,这样不仅能学习到全局的抽象特征还能学习到局部的底层特征。大量的实验显示出提出的方法可以在复杂的内容中精准地匹配图像和文本描述,并且在MSCOCO数据集上进行的跨模态检索实验中取得了state-of-the-art的效果。

▌概述摘要


我们已经进入到了一个大数据时代,不同模态的数据例如文本,图像,视频正在以爆炸性的速度增长。这些模态展现出了异质的属性,使得用户很难快速高效地搜索到满意的搜索结果。所以,文本-视觉跨模态检索已经成为了一个计算机视觉和自然语言处理领域的研究热点。跨模态检索的核心是学习出一个合适的多模态数据表示空间,使得不同模态的数据可以在这个表示空间内进行直接的比较。

近年,研究人员已经提出了大量的方法来弥补不同模态之间的语义鸿沟。对于文本-视觉的跨模态表示,常见的方法就是首先每个模态的数据编码成各自的表示特征,然后将他们映射到一个共同的语义空间内,然后使用一个ranking loss来对其进行优化,使得相似的图像-文本对映射出的特征向量之间的距离小于不相似的图像-文本对之间的距离。尽管这种方法学习出的公共空间可以很好地描述多模态数据高层的语义概念,但是没有充分地挖掘图像的局部精细相似度和句子的词层次相似度。例如,人类在进行文本和图像的匹配时,会更多地关注他们中存在的细节信息,使得文本和图像的关联更加精准。换句话说,如果将一个模态的表示转换成另一个模态的表示,我们可以学习到一个更好的映射。

受到上述概念的启发,这篇文章在进行传统的全局语义层次上的文本-视觉跨模态表示之外,还引入文本-图像和图像-文本两个生成模型来进行局部层次的跨模态特征表示。下图展示了这种基本概念。

图1: GXN模型的主旨:主要包含三个步骤:Look,Imageine和Match。Look:给出一个查询文本或图像,提取出对应的抽象表示。Image:将第一步中得到的一种模态的特征表示生成为另一种模态表示,并将其和真实数据进行比较来生成一个更加精细的底层表示。Match:使用组合了高层抽象表示和局部底层表示的特征表示来进行图像-文本对的关联匹配。

▌详细内容


  • 总体框架

图2展示的GXN模型的的总体结构,它主要包括三个模块:多模态特征表示部分(整个上部区域),图像-文本生成特征学习部分(蓝色通道)和文本-图像生成对抗特征学习部分(绿色通道)。

图2: 提出的生成式跨模态特征学习框架(generative cross-modal feature learning framework,GXN)

第一个部分相似于已经存在的跨模态特征表示:将不同模态的特征映射到一个公共的空间;不同之处在于本文使用了两路的特征表示来使表示出的视觉特征和文本特征接近。在这里

作为高层抽象特征而

作为精细的的底层特征。底层特征被用来指导其他两路进行生成式的特征学习。整个第一部分主要包括:一个图像编码器

和两个语句编码器

第二部分(蓝色通道)利用底层视觉特征

来生成一个描述语句。它包括一个图像编码器

和一个语句解码器

,通过设置一个合适的loss函数来与真是的文本描述进行对抗训练,并通过反向传播来调整

的值。

第三部分(绿色通道)通过使用一个生成对抗模型来从文本特征

中生成一副图像,包括一个生成器/解码器

和一个判别器

最终,通过两路的跨模态特征生成学习,希望学习到强大的跨模态特征表示,在测试时

,和

将会作为最终的特征表示来进行跨模态检索。

  • 跨模态特征表示

给出一个图像-文本对

,首先对每个模态的数据分别进行编码,

其中

为线性映射函数,

分别是图像和文本描述的映射向量。

与普通的跨模态特征表示方法一样,本文使用了一个二元ranking loss来学习模型参数,考虑到两路的跨模态特征表示,loss函数可写为:

其中,

是边缘阈值,

  • 图像-文本生成特征学习

对于图像-文本的训练通道,目标是让底层的特征表示

生成与真实文本描述尽可能相似的文本描述。首先通过

编码图像,接下来使用

将底层的特征解码为文本描述。

训练时,首先使用一个word-level的交叉熵损失:

为了直接优化metrics,使用了最小化负期望奖赏来优化模型:

最终的损失函数为:

  • 文本-图像生成对抗特征学习

对于文本-图像的训练通道,目标是让底层的特征表示

生成与真实图像尽可能相似的一副图像。在这里使用GAN来进行生成:训练判别器来从生成的样本(假图像,真描述)和样本(真图像,假描述)中辨别出真实的样本(真图像,真描述)。然后,使判别器

和生成器

进行如下的极大-极小训练:

其中判别器损失

和生成器损失

分别为:

考虑到数据的数量限制和

与噪声样本

之间的不平滑性,最终的损失可写为:

▌实验结果


本文设置了多种baseline进行比较,证实了提出的两种生成模型的有效性:

表1:在MSCOCO 1K-image测试集上的跨模态检索结果

表2:在MSCOCO 1K-image测试集上使用sentence-level metrics对检索的captions的质量进行评估。

与MSCOCO数据集上state-of-the-art方法的比较:

表3:在MSCOCO 数据集上和当前前沿的方法进行跨模态检索的比较结果。

可视化检索结果:

图5:跨模态检索的结果。

可视化word embedding:

图6:word embedding的可视化结果

▌总结


本文提出了一种新颖的特征表示来进行跨模态检索。创新性地将图像-文本生成模型和文本-图像生成模型引入到传统的跨模态表示中,使其不仅能学习到多模态数据的高层的抽象表示,还能学习到底层的表示。显著超越state-of-the-art方法的表现证实了该方法的有效性。

参考链接:

https://arxiv.org/abs/1711.06420

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2017-12-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | FAIR提出用聚类方法结合卷积网络,实现无监督端到端图像分类

预训练的卷积神经网络,或称卷积网络,已经成为大多数计算机视觉应用的基础构建模块 [1,2,3,4]。它们能提取极好的通用特征,用来提高在有限数据上学习的模型的泛...

1611
来自专栏智能算法

【深度学习】深度多目标跟踪算法综述

基于深度学习的算法在图像和视频识别任务中取得了广泛的应用和突破性的进展。从图像分类问题到行人重识别问题,深度学习方法相比传统方法表现出极大的优势。与行人重识别问...

2202
来自专栏磐创AI技术团队的专栏

卷积神经网络概述

在 2012 年的 ILSVRC 比赛中 Hinton 的学生 Alex Krizhevsky 使用深度卷积神经网络模型 AlexNet 以显著的优势赢得了比...

3544
来自专栏SIGAI学习与实践平台

深度多目标跟踪算法综述

基于深度学习的算法在图像和视频识别任务中取得了广泛的应用和突破性的进展。从图像分类问题到行人重识别问题,深度学习方法相比传统方法表现出极大的优势。与行人重识别问...

2203
来自专栏算法channel

BAR面试题6:LR和SVM的联系与区别

接下来,每天一道BAT面试题陪伴你,日积月累,相信大家会从中学到一些东西。最后希望你们顺利拿到理想的OFFER.

3082
来自专栏数据派THU

用这种方法实现无监督端到端图像分类!

FAIR 的研究者提出了一种为卷积网络进行大规模端到端训练的聚类方法。他们证明了用聚类框架获得有用的通用视觉特征是可实现的。

1361
来自专栏Bingo的深度学习杂货店

吴恩达 —— 深度学习 Course 1 笔记

Course1:神经网络和深度学习,包括: ---- [1] Week1:深度学习概述 [2] Week2:神经网络基础 [3] Week3:浅层神经网络 ...

3128
来自专栏老秦求学

Deep Learning Tutorial 李宏毅(一)深度学习介绍

大纲 深度学习介绍 深度学习训练的技巧 神经网络的变体 展望 深度学习介绍 深度学习介绍 深度学习属于机器学习的一种。介绍深度学习之前,我们先大致了解一下机器学...

44810
来自专栏JasonhavenDai

统计学习方法之概论1.基础概念2.统计学习三要素3.模型评估与模型选择、正则化和交叉验证4.分类问题、标注问题、回归问题5.学习小结

1.基础概念 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科,是一门概率论、统...

2983
来自专栏机器学习、深度学习

语义分割--Mix-and-Match Tuning for Self-Supervised Semantic Segmentation

Mix-and-Match Tuning for Self-Supervised Semantic Segmentation AAAI Conference...

28010

扫码关注云+社区

领取腾讯云代金券