首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

媒体检索排序与哈希索引简介

传统媒体检索方法通常是先对图像或者其他多媒体数据进行人工构造特征抽取(例如颜色直方图、SIFT等),然后再进行检索排序学习。为了捕获数据中所具有的隐性结构,研究人员相继提出了一些基于主题词袋(bag of topics)、排序的最大间隔约束学习和基于社区关系约束学习等方法,用于进行相似度度量。

但是,这种基于人工构造特征的跨媒体检索方法会受到不同特征提取方法的影响而导致排序结果差别较大。近年来,深度学习方法也开始被广泛应用于图像检索,有人研究了深度学习在基于内容的图像检索中的应用问题。首先利用大规模的训练数据训练得到卷积神经网络,然后有三种思路可将卷积神经网络学习得到的图像表达应用于图像检索:直接用卷积神经网络学习得到的特征表达进行图像搜索、利用卷积神经网络学习得到的特征表达来学习度量函数、定义损失函数来对卷积神经网络进行优化。有人则从排序角度提出了一种基于“细粒度深度排序”的方法来进行图像检索,即在卷积神经网络的最高层构造一个排序损失函数来对深层模型进行优化(从而对特征表达结果进行优化)。该排序损失函数由检索样例、相关图像和不相关图像构成,排序损失函数要求检索样例与相关图像之间的相似度高于检索样例与不相关图像之间的相似度。实现不同类型媒体数据检索(跨模态检索或跨媒体检索)也是学术界近来关注的热点。德维斯(Devis)通过不同深层模型学习单词和图像的特征表达,利用铰链(hinge)损失函数以最大间隔学习方式对单词表达和图像表达,并利用相似度度量函数进行学习优化。有人先使用堆栈自编码器学习图像和文本两种类型数据表达,再通过施加重构误差最小化以及耦合模态数据之间相似度最大化来进行优化学习,以实现跨媒体检索。有人从跨媒体排序角度进行深层网络学习和优化。其方法是先通过使用不同的深层神经网络模型对不同类型媒体数据建模(如对图像使用深度卷积网络和对文本使用深度结构语义模型),然后在深层模型顶层设计基于交叉熵的损失层,通过逐层反馈排序损失来进行深度模型的训练和优化。

深度学习也将更精细语义或更丰富语义引入不同类型的数据检索,有人用递归神经网络(Recursive Neural Network,RNN)来学习描述句子的组合语义,用卷积神经网络来学习图像语义表示,将句子组合语义和图像语义映射到同一空间实现图像-句子检索。有人提出“深度片段嵌入(deep fragment embeddings)”方法,通过递归神经网络来学习句子中实体及其属性之间的依存关系,并将这种依存关系表示为三元组形式,之后基于区域的卷积神经网络来识别图像中的语义子块,最后进一步学习句子三元组和语义子块之间的相互映射函数,从而实现句子和图像之间的相似检索。

目前多媒体数据哈希索引的研究方向大致分为三类:(1)单一类型特征哈希索引,指以单类型的高维特征为输入的一类哈希算法的总称;(2)多视图哈希索引,指从数据中提取不同类型特征和属性等进行索引的方法;(3)跨媒体哈希索引,指对包含异构类型数据的信息资源进行哈希索引。这三类研究是层层递进的关系:从原始数据类型的角度看,是由单一类型数据(例如根据用户提交的样图查找与其相似的图像)向多种不同类型的数据(根据用户提交的样图查找与其相关的音频或文档)演变;从特征的角度看,是从单一类型特征向多类型异构特征演变。

随着深度学习方法的兴起研究者也开始在媒体数据哈希索引中引入深度学习。有人在深度学习框架下提出了监督式哈希索引生成方法:先从图像之间相似度矩阵来学习图像近似编码,然后利用该近似编码作为卷积神经网络输入来学习得到哈希映射函数。有人在不同类型数据深层模型的顶层分别设计了哈希编码层和编码输出层,再在这两层上分别定义了成对耦合损失函数和类别一致损失函数,前者刻画了模态间的相似性,后者旨在促使哈希函数具有鉴别性。再对整个神经网络进行反向传播和微调优化过程中学习最后得到哈希函数。有人提出了面向多模态哈希学习的正交性约束深度学习框架,融合了深度学习的非线性学习能力和正交性约束的去冗余特性,能学习跨模态信息之间的复杂关联,实现多模态数据紧凑表示。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200507A0R29S00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券