python︱imagehash中的四种图像哈希方式(phash/ahash/dhash/小波hash)

code来源:https://github.com/JohannesBuchner/imagehash 外文原文:https://fullstackml.com/wavelet-image-hash-in-python-3504fdd282b5

可以直接pip:

pip install imagehash

1 perception hashing

感知哈希,不同于aHash,但首先它确实是离散余弦变换和频域。 主函数:def phash(image, hash_size=8, highfreq_factor=4):

  • 两个参数,一起决定了图片resize的大小,最适合的才最好,按照公式: img_size = hash_size * highfreq_factor
  • hash_size代表最终返回hash数值长度
  • highfreq_factor,代表resize的尺度

案例:

highfreq_factor = 1
hash_size = 8
img_size = hash_size * highfreq_factor

hash1 = imagehash.phash(Image.open('1_1.jpg'),hash_size=hash_size,highfreq_factor=highfreq_factor)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.phash(Image.open('5_1.jpg'),hash_size=hash_size,highfreq_factor=highfreq_factor)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性

2 average hashing

平均散列,对于每个像素输出1,如果该像素是大于或等于平均值,否则为0。 主函数:

  average_hash(image, hash_size=8)

案例:

hash_size = 6
hash1 = imagehash.average_hash(Image.open('1_1.jpg'),hash_size=hash_size)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.average_hash(Image.open('5_1.jpg'),hash_size=hash_size)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性

3 difference hashing

梯度散列,计算每个像素的差值,并与平均差异的差异进行比较。

def dhash(image, hash_size=8)

案例:

hash_size = 10
hash1 = imagehash.dhash(Image.open('5_1.jpg'),hash_size=hash_size)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.dhash(Image.open('1_1.jpg'),hash_size=hash_size)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性

4 wavelet hashing

离散小波变换(DWT)是频表示的另一种形式。流行的DCT和傅立叶变换使用余弦函数作为sin\cos的基础:sin(x),sin(2x),sin(3x)等等。与此相反,DWT使用一个单一的功能作为基础,但在不同的形式:缩放和移动。基础功能是可以改变的,这就是为什么我们可以有Haar小波,Daubechie-4小波等,这尺度效应给我们很大“时频表示”的时候,低频部分类似于原始信号。

小波散列,几天前我把它添加到库里。它的工作原理在频域中作为pHash但它使用DWT代替DCT变换。 主函数:

def whash(image, hash_size = 8, image_scale = None, mode = 'haar', remove_max_haar_ll = True)

参数:

  • mode: ‘haar’ - Haar wavelets, by default ‘db4’ - Daubechies wavelets
  • remove_max_haar_ll:是否去掉低频段位,low level (LL) frequency
  • image_scale:图像重新resize成多大,一定是2的倍数

案例:

hash_size = 8
mode = 'db4'
image_scale = 64
hash1 = imagehash.whash(Image.open('1_1.jpg'),image_scale=image_scale,hash_size=hash_size,mode = mode)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.whash(Image.open('5_1.jpg'),image_scale=image_scale,hash_size=hash_size,mode = mode)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

文本情感分析:特征提取(TFIDF指标)&随机森林模型实现

作者:Matt 自然语言处理实习生 http://blog.csdn.net/sinat__26917383/article/details/513024...

5054
来自专栏决胜机器学习

机器学习(十七) ——SVM进一步认识

机器学习(十七)——SVM进一步认识 (原创内容,转载请注明来源,谢谢) 注:这两天边看ng的svm视频,边看机器学习实战的书的svm代码,两边都看的云里雾里...

3058
来自专栏企鹅号快讯

机器学习——SVM进一步认识

机器学习(十七) ——SVM进一步认识 (原创内容,转载请注明来源,谢谢) 注:这两天边看ng的svm视频,边看机器学习实战的书的svm代码,两边都看的云里雾里...

1826
来自专栏数据结构与算法

P1038 神经网络

题目背景 人工神经网络(Artificial Neural Network)是一种新兴的具有自我学习能力的计算系统,在模式识别、函数逼近及贷款风险评估等诸多领域...

3068
来自专栏绿巨人专栏

强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)

3685
来自专栏Brian

数据挖掘

---- 概述 最近一直在学习数据挖掘和机器学习,无论是是服务端开发人员还是web开发人员,个人觉得最起码都要都一些最基本的数据挖掘和机器学习知识。废话少说,我...

2725
来自专栏AI科技评论

ICML论文精选:无监督学习的研究和应用

深度学习的类型按照数据是否有标记来区别可以分为三种:监督学习、半监督学习和无监督学习。事实上人类不可能把每件事都手把手的教给AI。无监督学习应该才是未来的趋势。...

35616
来自专栏智能算法

10 种机器学习算法的要点(附 Python 和 R 代码)

本文由 伯乐在线 - Agatha 翻译,唐尤华 校稿。 英文出处:SUNIL RAY。欢迎加入翻译组。 前言 谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和...

3325
来自专栏大数据挖掘DT机器学习

数据挖掘工程师笔试及答案

2013百度校园招聘数据挖掘工程师 一、简答题(30分) 1、简述数据库操作的步骤(10分) 步骤:建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命...

3848
来自专栏数据科学与人工智能

【机器学习】10 种机器学习算法的要点

前言 谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明、更个性化的技术。 也许我...

2337

扫码关注云+社区