有趣的算法(三)——Hash算法

有趣的算法(三)——Hash算法

(原创内容,转载请注明来源,谢谢)

一、Hash算法

近期看到用hash实现基于hash的简单的小型数据库(传统大型数据库用的都是B+tree),感觉挺感兴趣,故先研究hash算法,近期会用hash实现一个小的数据库。

Hash表(Hash Table)又称为散列表,通过把关键字key映射到数组的一个位置,来访问记录。这个映射函数称为hash函数,存放记录的数组称为hash表。

1、hash函数

作用是把任意长度的输入,通过hash算法得到固定函数的输出,输出的内容就是hash值。这种映射是一种压缩映射,即输出的内容占用的存储空间可能会小于输入的内容。因此不同的key经过hash可能会得到同一个结果。

好的hash使每个关键字均匀分布到hash表的任一个位置,并于其他已被散列到hash表中的关键字不冲突。

根据关键字的不同,可能设计不同的hash算法。

2、直接取余法——适用整数

用关键字k除以hash表的大小m取余,得到的结果即为结果。

h(k) = k mod m。例如哈希表大小20,关键字是30,则h(20) = 10。

3、乘积取整法——适用小数

使用关键字k乘以一个常数A(0<A<1),取出kA的小数部分,乘以hash表的大小,向下取整即可。

hash(k)= floor(m*(kA mod 1)),kA mod 1表示kA的小数部分,floor是取整操作。

4、ASCII码处理法——适用字符串

字符串无法进行取余或者取整,则可以使用把每个字符取整求和,再按照上面的方法对结果进行处理。

5、经典hash算法:DJB hashfunction(俗称Times33)

该算法效率和随机性很高,运用广泛,包括Perl、Berkeley DB、Apache、MFC、STL、PHP等的Hash,都用的此算法。

该算法的核心是将每一位都乘以33,再加上原来的值。

代码实现方法(C语言)如下:

         unsignedlong time33(char const *str, int len)
    {
       unsigned long  hash = 0;
       for (int i = 0; i < len; i++) {
           hash = ((hash <<5) + hash) + (unsigned long) str[i];
       }
       return hash;
}

其中,采用<<方式,即将值乘以2的5次方(32)。

二、Hash表

1、算法

hash表的时间复杂的O(1),即key通过hash函数,找到值所在的地方。要构建hash表必须创建一个足够大的数组用于存放数据,另外还需要一个hash函数把关键字key映射到数组的某个位置。具体实现步骤如下:

1)创建一个固定大小的数组用于存放数据。

2)设计hash函数。

3)通过hash函数把关键字映射到数组的某个位置,并在此位置上进行数据存取。

2、用PHP实现hash表

1)定义hashtable类

<?php
classHashTable{
private $buckets;
private $size = 10;
public function __construct($size = 0){
if($size > 0){
$this->size =$size;
}
$this->buckets = new SplFixedArray($this->size);
}
}

hash表采用定长来保存数据,其中buckets是一个数组,其key是hash函数的结果,值用于存放原值。buckets的数组不采用array,而采用php的SPL中的SplFixedArray,该类要求初始化的时候需要一个定长,并且数组的key只能是整数。这个数组更接近原生的c语言,效率更高。

2)定义hash函数(Times33,字符串取ascii,结果和10)

private functionhashFunction($string){
         $len = strlen($string);
         $hash = 0;
         for($i=0;$i<$len;$i++){
         $hash += $hash<<5+ ord($key[$i]);
         $hash %=$this->size;
}
return $hash;
}

3)增删改查

         //新增,相同则覆盖
         publicfunction insert($key, $val){
                   $key= $this->hashFunction($key);
                   $this->buckets[$key]= $val;
                   return$this->buckets;
         }
         //查找
         publicfunction search($key){
                   $key= $this->hashFunction($key);
                   return$this->buckets[$key];
         }
         //删除
         publicfunction delete($key){
                   $key= $this->hashFunction($key);
                   if(isset($this->buckets[$key])){
                            unset($this->buckets[$key]); 
                   }
         }
         //修改,不存在则新增
         publicfunction update($key, $val){
                   $key= $this->hashFunction($key);
                   $this->buckets[$key]= $val;
                   return$this->buckets;
         }

3、Hash表冲突问题

因为key是通过一定的计算得到的结果,且通常传入的key和计算的key不是一一对应的,因此可能会存在冲突。要解决冲突,可以使用拉链法,即将所有相同的值放在一个链表中。此时,除了需存储value,还要存储key和下一个value的位置。

因此,需要引入一个新的类:

         classHashNode{
         public $key;
         public $value;
         public $next;
         public function __construct($key,$value, HashNode $next = null){
         $this->key = $key;
         $this->value=$value;
         $this->next =$next;
}
}

此时,相应的操作变化如下:

         //新增,链表方式,重复则添加到相应的链表
         publicfunction insert($key, $val){
                   $key= $this->hashFunction($key);
                   if(isset($this->buckets[$key])){
                            $node= new HashNode($key, $val, $this->buckets[$key]);
                   }else{
                            $node = new HashNode($key, $val);
                   }
                   unset($this->buckets[$key);
                   $this->buckets[$key]= $node;
                   return$this->buckets;
         }
         //查找
         publicfunction search($key){
                   $key= $this->hashFunction($key);
                   if(!isset($this->buckets[$key])){
                            returnnull;
                   }
                   $current= $this->buckets[$key];
                   while(isset($current)){
                            if($current->key== $key){
                                     return$current->value;
                            }
                            $current= $current->next;
                   }                                   
                   returnnull;
         }
         //修改,不存在则返回false
         publicfunction update($key, $val){
                   $key= $this->hashFunction($key);
                   if(!isset($this->buckets[$key])){
                            returnfalse;
                   }
                   $current= $this->buckets[$key];
                   $isSuccess= false;
                   while(isset($current)){
                            if($current->key== $key){
                                     $current->value= $val;
                                     $isSuccess= true;
                                     break;
                            }
                            $current= $current->next;                       
                   }
                   return$isSuccess;
         }

——written by linhxx 2017.08.18

原文发布于微信公众号 - 决胜机器学习(phpthinker)

原文发表时间:2017-08-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Albert陈凯

Scala集合练习题

//创建一个List val list0 = List(1,7,9,8,0,3,5,4,6,2) //将list0中每个元素乘以10后生...

2719
来自专栏机器之心

入门 | 一文带你了解Python集合与基本的集合运算

了解 Python 集合: 它们是什么,如何创建它们,何时使用它们,什么是内置函数,以及它们与集合论操作的关系

913
来自专栏进击的君君的前端之路

JavaScript面向对象编程指南 第一、二章知识点整理

1035
来自专栏Golang语言社区

(译)Go 语言的内存、指针详解

这是一篇面向即将学习 go 语言并且对指针理念或者 go 的指针类型不是很了解的程序员的内容 什么是指针? 简单解释,指针就是指向另一段地址的值,课本上是这么解...

42914
来自专栏noteless

[五]java函数式编程归约reduce概念原理 stream reduce方法详解 reduce三个参数的reduce方法如何使用

java8 流相关的操作中,我们把它理解 "累加器",之所以加引号是因为他并不仅仅是加法

973
来自专栏CDA数据分析师

入门 | 一文带你了解Python集合与基本的集合运算

了解 Python 集合: 它们是什么,如何创建它们,何时使用它们,什么是内置函数,以及它们与集合论操作的关系

750
来自专栏C语言及其他语言

指针

1、地址与指针 Hi,欢迎来到指针的世界,也许您早已听过它的大名,指针被称为是C语言的精华所在。真正理解和掌握指针是征服C语言的关键所在! 在众多的计算机语言中...

2586
来自专栏顶级程序员

判断链表是否有环

判断一个单向链表是否有环。(指向表头结点的指针为head) 方法一: (1)用两个指针p1和p2分别指向表头结点,即p1=p2=head (2)p1和p2分别...

4407
来自专栏积累沉淀

Python快速学习第七天

魔法方法、属性和迭代器 本文内容全部出自《Python基础教程》第二版 在Python中,有的名称会在前面和后面都加上两个下划线,这种写法很特别。...

2465
来自专栏猿人谷

C++ 虚拟继承

1.为什么要引入虚拟继承 虚拟继承是多重继承中特有的概念。虚拟基类是为解决多重继承而出现的。如:类D继承自类B1、B2,而类B1、B2都继 承自类A,因此在类D...

1978

扫描关注云+社区