前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[1211]python imagehash库简单运用

[1211]python imagehash库简单运用

作者头像
周小董
发布2023-10-10 08:38:45
4810
发布2023-10-10 08:38:45
举报
文章被收录于专栏:python前行者

github:https://github.com/JohannesBuchner/imagehash

python imagehash库简单运用

imagehash 是一个用 Python 写的图片哈希算法库。支持以下功能:

  • 平均哈希(ahash)
  • 感知哈希(phash)
  • 差异哈希(dhash)
  • 小波哈希(whash)
  • HSV 颜色哈希(colorhash)
  • 抗剪切哈希(crop-resistant hashing)
基本原理

为什么我们不能使用MD5、SHA-1等?

不幸的是,我们不能在实现中使用加密哈希算法。由于加密散列算法的性质,输入文件中的微小更改将导致本质上不同的散列。在图像指纹的情况下,我们实际上希望相似的输入也有相似的输出散列。

什么是哈希(hash)?

散列函数(英语:Hash function)又称散列算法哈希函数,是一种从任何一种数据中创建小的数字 “指纹” 的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值(hash values,hash codes,hash sums,或 hashes)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。

诸如 MD5、HA256 一类的密码散列函数,可以输入任何一种数据,将数据压缩成部分摘要,使得数据量变小,从而创建出小的数字 “指纹”。

什么是图像哈希(imagehash)?

在图像哈希算法中定义了一类可以输出可比较哈希的函数,这些函数可以提取图像中的特征,用来生成一个独特但不唯一的指纹,比较这些生成的指纹就能够比较两个图像的相似度。

安装
代码语言:javascript
复制
pip install imagehash
基本用法
代码语言:javascript
复制
>>> from PIL import Image
>>> import imagehash
>>> hash = imagehash.average_hash(Image.open('test.png'))
>>> print(hash)
d879f8f89b1bbf
>>> otherhash = imagehash.average_hash(Image.open('other.bmp'))
>>> print(otherhash)
ffff3720200ffff
>>> print(hash == otherhash)
False
>>> print(hash - otherhash)
36

imagehash中的四种图像哈希方式(phash/ahash/dhash/小波hash)

perception hashing

感知哈希,不同于aHash,但首先它确实是离散余弦变换和频域。 主函数:def phash(image, hash_size=8, highfreq_factor=4):

  • 两个参数,一起决定了图片resize的大小,最适合的才最好,按照公式: img_size = hash_size * highfreq_factor
  • hash_size代表最终返回hash数值长度
  • highfreq_factor,代表resize的尺度

案例:

代码语言:javascript
复制
highfreq_factor = 1
hash_size = 8
img_size = hash_size * highfreq_factor

hash1 = imagehash.phash(Image.open('1_1.jpg'),hash_size=hash_size,highfreq_factor=highfreq_factor)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.phash(Image.open('5_1.jpg'),hash_size=hash_size,highfreq_factor=highfreq_factor)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性
average hashing

平均散列,对于每个像素输出1,如果该像素是大于或等于平均值,否则为0。 主函数:

代码语言:javascript
复制
average_hash(image, hash_size=8)

案例:

代码语言:javascript
复制
hash_size = 6
hash1 = imagehash.average_hash(Image.open('1_1.jpg'),hash_size=hash_size)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.average_hash(Image.open('5_1.jpg'),hash_size=hash_size)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性
difference hashing

梯度散列,计算每个像素的差值,并与平均差异的差异进行比较。

代码语言:javascript
复制
def dhash(image, hash_size=8)

案例:

代码语言:javascript
复制
hash_size = 10
hash1 = imagehash.dhash(Image.open('5_1.jpg'),hash_size=hash_size)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.dhash(Image.open('1_1.jpg'),hash_size=hash_size)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性
wavelet hashing

离散小波变换(DWT)是频表示的另一种形式。流行的DCT和傅立叶变换使用余弦函数作为sin\cos的基础:sin(x),sin(2x),sin(3x)等等。与此相反,DWT使用一个单一的功能作为基础,但在不同的形式:缩放和移动。基础功能是可以改变的,这就是为什么我们可以有Haar小波,Daubechie-4小波等,这尺度效应给我们很大“时频表示”的时候,低频部分类似于原始信号。

小波散列,几天前我把它添加到库里。它的工作原理在频域中作为pHash但它使用DWT代替DCT变换。 主函数:

代码语言:javascript
复制
def whash(image, hash_size = 8, image_scale = None, mode = 'haar', remove_max_haar_ll = True)

参数:

  • mode: ‘haar’ - Haar wavelets, by default ‘db4’ - Daubechies wavelets
  • remove_max_haar_ll:是否去掉低频段位,low level (LL) frequency
  • image_scale:图像重新resize成多大,一定是2的倍数

案例:

代码语言:javascript
复制
hash_size = 8
mode = 'db4'
image_scale = 64
hash1 = imagehash.whash(Image.open('1_1.jpg'),image_scale=image_scale,hash_size=hash_size,mode = mode)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.whash(Image.open('5_1.jpg'),image_scale=image_scale,hash_size=hash_size,mode = mode)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性

实例对比

测试图片

使用最为流行的图片

lenna400x400.jpg

lenna512x512.png

lenna317x360_add_text.jpg

image.png
image.png
PHASH测试效果:

结果是对分辨率不敏感,但是对图像的内容很敏感。

代码语言:javascript
复制
phash leanna400  :  99c6562d7533a296
phash leanna512  :  99c6562d7533a296
phash leannatext :  98d4946d6e2a72b6
phash leanna400 compare leanna512  :  0.0
phash leanna400 compare leannatext :  0.28125
phash leanna512 compare leannatext :  0.28125
WHASH测试效果:

对分辨率不是很敏感,对显示内容更敏感。

代码语言:javascript
复制
whash leanna400  :  b698bd8d0b0b8f8c
whash leanna512  :  be98bd890b0b8f8c
whash leannatext :  3e7e4d19190b0f1d
whash leanna400 compare leanna512  :  0.03125
whash leanna400 compare leannatext :  0.3125
whash leanna512 compare leannatext :  0.28125
AHASH测试效果:

对分辨率不是很敏感,对显示内容更敏感。

代码语言:javascript
复制
average_hash leanna400  :  b69cbd890b0b8f8c
average_hash leanna512  :  b69c3d890b0b8f8c
average_hash leannatext :  3a7e4c09190b0f1f
average_hash leanna400 compare leanna512  :  0.015625
average_hash leanna400 compare leannatext :  0.3125
average_hash leanna512 compare leannatext :  0.296875
DHASH测试效果:

对分辨率不是很敏感,对显示内容更敏感。

代码语言:javascript
复制
dhash leanna400  :  7670795b33131a38
dhash leanna512  :  7670795b33135a38
dhash leannatext :  f2f099b93393d9fd
dhash leanna400 compare leanna512  :  0.015625
dhash leanna400 compare leannatext :  0.296875
dhash leanna512 compare leannatext :  0.28125
测试代码:

由于效果不算好,我就不继续测试了。

代码语言:javascript
复制
import PIL
from PIL import Image
import imagehash

lenna400 = PIL.Image.open('./res/lenna400x400.jpg')
lenna512 = PIL.Image.open('./res/lenna512x512.png')
lennaText = PIL.Image.open('./res/lenna317x360_add_text.jpg')

p = imagehash.phash(lenna400)
p1 = imagehash.phash(lenna512)
p2 = imagehash.phash(lennaText)
print('phash leanna400  : ', p)
print('phash leanna512  : ', p1)
print('phash leannatext : ', p2)
print('phash leanna400 compare leanna512  : ', (p - p1) / len(p.hash) ** 2)
print('phash leanna400 compare leannatext : ', (p - p2) / len(p.hash) ** 2)
print('phash leanna512 compare leannatext : ', (p1 - p2) / len(p1.hash) ** 2, end='\n\n')

w = imagehash.whash(lenna400)
w1 = imagehash.whash(lenna512)
w2 = imagehash.whash(lennaText)
print('whash leanna400  : ', w)
print('whash leanna512  : ', w1)
print('whash leannatext : ', w2)
print('whash leanna400 compare leanna512  : ', (w - w1)/len(w.hash)**2)
print('whash leanna400 compare leannatext : ', (w - w2)/len(w.hash)**2)
print('whash leanna512 compare leannatext : ', (w1 - w2)/len(w1.hash)**2, end='\n\n')

a = imagehash.average_hash(lenna400)
a1 = imagehash.average_hash(lenna512)
a2 = imagehash.average_hash(lennaText)
print('average_hash leanna400  : ', a)
print('average_hash leanna512  : ', a1)
print('average_hash leannatext : ', a2)
print('average_hash leanna400 compare leanna512  : ', (a - a1)/len(a.hash)**2)
print('average_hash leanna400 compare leannatext : ', (a - a2)/len(a.hash)**2)
print('average_hash leanna512 compare leannatext : ', (a1 - a2)/len(a1.hash)**2, end='\n\n')

d = imagehash.dhash(lenna400)
d1 = imagehash.dhash(lenna512)
d2 = imagehash.dhash(lennaText)
print('dhash leanna400  : ', d)
print('dhash leanna512  : ', d1)
print('dhash leannatext : ', d2)
print('dhash leanna400 compare leanna512  : ', (d - d1) / len(d.hash) ** 2)
print('dhash leanna400 compare leannatext : ', (d - d2) / len(d.hash) ** 2)
print('dhash leanna512 compare leannatext : ', (d1 - d2) / len(d1.hash) ** 2)

参考:https://www.cnpython.com/pypi/imagehash https://blog.csdn.net/DHS2219576309/article/details/104922110 https://cloud.tencent.com/developer/article/1011084 https://sakurapuare.com/?p=26 https://www.freesion.com/article/2768708546/

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • python imagehash库简单运用
    • 基本原理
      • 什么是哈希(hash)?
      • 什么是图像哈希(imagehash)?
    • 安装
      • 基本用法
      • imagehash中的四种图像哈希方式(phash/ahash/dhash/小波hash)
        • perception hashing
          • average hashing
            • difference hashing
              • wavelet hashing
              • 实例对比
                • 测试图片
                  • PHASH测试效果:
                    • WHASH测试效果:
                      • AHASH测试效果:
                        • DHASH测试效果:
                          • 测试代码:
                          相关产品与服务
                          腾讯云服务器利旧
                          云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
                          领券
                          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档