大规模图像检索的深度哈希方法简介

传统的图像检索过程,先通过人工对图像进行文字标注,再利用关键字来检索图像,这种依据图像描述的字符匹配程度提供检索结果的方法,称为“以字找图”(text-based image retrieval),既耗时又主观多义。如今每一秒都有数百万图片通过各种渠道上传到各种大规模存储设备中。给定一张查询图片,快速从百万量级的图像数据库中通过图像特征来找出内容相近的一定数量的图片,这种任务被称为“基于内容的图像检索”(content-based image retrieval (CBIR)),是目前非常流行的研究方向。

基于内容的图像检索

哈希方法-提升检索速度

在CBIR中,查询速度和查询准确率是一对需要权衡的指标。查询速度方面,可以使用二值哈希的方法来大幅度提升。简单概括下即将每张图片通过一个函数映射成一定长度的二进制码(如48bit),将图片的二进制码间的汉明距离(hamming distance)定义为图像之间的相似程度。由于汉明距离的比较完全可以基于位操作,相比基于数值特征的图像检索,查询速度可以得到数十倍的提升。

具体的查询过程如下,用事先定义好的哈希函数将查询图片映射成48bit的二进制码,与数据库中所有图片的二进制码比较汉明距离,按汉明距离从小到大排序即为本次图像检索的结果。

深度哈希-提升检索精度

深度学习算法,如卷积神经网络CNN将众多计算机视觉任务如图像分类,物体识别,人脸识别等的准确度实现了一个飞跃。CNN的成功在于其深层的卷积网络拥有传统方法所不具备的特征提取能力,其精炼准确的特征非常适合应用于CBIR任务。深度哈希(deep hash)将CNN与哈希图像检索结合,同时拥有检索精度高,速度快的特点。其方法可以概括为,训练一个CNN网络将图像映射成较低维度的特征,再将特征转化为二进制码进行检索。网络的设计以及训练数据的构建是决定检索精度的关键,不少研究团队提出了各种不同的深度哈希网络并在实验数据集上获得了成功。

最新成果

文中方法示意图

上海交通大学图像所研究团队提出了一种基于深度哈希的图像检索算法,在检索准确率(mean average presision)以及训练速度上表现不错,模型简单,可实用性强。该方法在常用数据集CIFAR-10,ImageNet上都达到了很高的准确率。相比于其他深度哈希的方法,该方法有以下三个特点:

1. 利用理想码组作为训练标签。大部分深度哈希方法利用CNN的中间层或定义特殊的损失函数来约束网络生成图像的目标二进制码,而这类方法的缺陷在于未能拉开不同类别图像编码间的汉明距离。假设训练数据集拥有K类图片,目标二进制码长为N比特,该方法利用贪婪法生成拥有K个码字的二进制码组,两两之间的汉明距离可以达到最优。经过训练后的网络不仅在训练集上得到汉明距离大的图像编码,在测试集上的泛化能力也十分出色。

2. 该方法的训练过程是单例(pointwise)损失函数进行的。在深度哈希以及许多CV任务如人脸鉴定中,常常用到双例(pairwise)及三例(triplet)损失函数来优化参数,这些方式的好处是可以通过不同输入间的关系来训练网络,较为直观和智能。缺点是训练时间较长,性能会有所损失。而该方法用设计好的理想码组作为训练标签,已经将不同内容信息包含在了训练集中,可以进行单例训练。训练速度快,而且不同标签的图像之间的汉明距离被拉得很开。

3. 该方法对语义不平衡的图像也有相应解决方案。语义不平衡(Semantically Uneven)是指如下情况,三类图片[人,轿车,卡车]作图像检索,输入卡车图像应该在卡车之外优先检索出轿车而不是人。这类语义不平衡的情况通常需要用三例损失函数来训练,即一次输入三张图片告知其相似程度的不同。而该方法在理想码组的训练中可以接受语义不平衡系数,使更相近的类之间拥有更近的汉明距离,使得检索更加准确。

该方法在多个数据集上的检索准确率(mean average precision)相比之前的方法有了提升。同时针对大分辨率的图像利用了inception net,准确率得到了进一步的提升。下面的表格包含了当前主流的一些深度哈希图像检索法以及传统方法在CIFAR-10和ImageNet上的检索准确率表现。(DBR以及DBR-v3为本文所属方法)。

最新方法准确率比较

论文地址:https://www.hindawi.com/journals/am/2017/8961091/

Demo源码:https://github.com/luseiee/DeepBinaryRepre

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-12-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

贝叶斯深度学习——基于PyMC3的变分推理

3354
来自专栏钱塘大数据

聚类分析—大数据时代数据挖掘的关键突破口

导读:人类文明已迈入大数据时代,得“数据”者得天下,而数据处理技术是必不可少的,那么说到大数据分析中的应用,最常用的经典算法之一就是聚类法,这是数据挖掘采用的起...

3668
来自专栏华章科技

机器学习入门科普:监督学习和无监督学习都是什么?都能干什么?

学习能力是动物特别是人特有的,根据达尔文的理论,它也是所有物种生存和进化的关键要素。机器虽然不能自主进化,但似乎也遵循同样的规律。

382
来自专栏大数据挖掘DT机器学习

coursera机器学习算法课: 异常检测 & 推荐系统

这部分内容来源于Andrew NG老师讲解的 machine learning课程,包括异常检测算法以及推荐系统设计。异常检测是一个非监督学习算...

3609
来自专栏新智元

谷歌大脑:使用强化学习,从头生成神经网络架构(论文)

【新智元导读】深度学习的成功,使业内范式开始从特征设计转向架构设计。Google Brain 研究人员使用强化学习,从头开始生成神经网络架构。【论文地址:htt...

3606
来自专栏数据派THU

ML:教你聚类并构建学习模型处理数据(附数据集)

1548
来自专栏机器学习算法与Python学习

机器学习(22)之Apriori算法原理总结

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 前言 Apriori算法是常用的用于...

3697
来自专栏数据派THU

无人驾驶机器学习算法大全(决策矩阵、聚类、回归……)

来源:机器人圈 作者:多啦A亮 本文长度为4600字,建议阅读6分钟 本文全面概述了无人驾驶现阶段使用的机器学习技术。 [导读]无人驾驶被认为是未来人工智能技术...

2107
来自专栏AI2ML人工智能to机器学习

从非结构化文本中提取知识

从人们在互联网上的公开话语中, 可以提取到异常多的信息。 在Heuritech,我们使用这些信息来更好地了解人们想要什么,他们喜欢什么产品以及原因。 这篇文章从...

1011
来自专栏绿巨人专栏

强化学习读书笔记 - 04 - 动态规划

3217

扫码关注云+社区