首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >对英语单词来说,什么是一个好的哈希函数?

对英语单词来说,什么是一个好的哈希函数?
EN

Stack Overflow用户
提问于 2011-10-09 07:20:10
回答 3查看 39.5K关注 0票数 23

我有一个很长的英文单词列表,我想把它们散列出来。什么是一个好的散列函数?到目前为止,我的散列函数将字母的ASCII值相加,然后对表大小取模。我在找一些高效和简单的东西。

EN

回答 3

Stack Overflow用户

发布于 2011-10-09 07:25:21

也许这样的东西会对你有所帮助:http://www.gnu.org/s/gperf/

它为输入域生成一个优化的散列函数。

票数 10
EN

Stack Overflow用户

发布于 2011-10-09 07:29:54

如果您不需要加密安全,我建议您使用Murmur Hash。它的速度非常快,扩散程度很高。易于使用。

http://en.wikipedia.org/wiki/MurmurHash

http://code.google.com/p/smhasher/wiki/MurmurHash3

如果您确实需要加密安全的哈希,那么我建议通过OpenSSL使用SHA1。

http://www.openssl.org/docs/crypto/sha.html

票数 6
EN

Stack Overflow用户

发布于 2012-12-23 19:16:46

有点晚了,但下面是一个哈希函数,对于下面的64位版本,冲突率非常低,对于32位版本,~几乎一样好:

代码语言:javascript
复制
uint64_t slash_hash(const char *s)
//uint32_t slash_hash(const char *s)
{
    union { uint64_t h; uint8_t u[8]; } uu;
    int i=0; uu.h=strlen(s);
    while (*s) { uu.u[i%8] += *s + i + (*s >> ((uu.h/(i+1)) % 5)); s++; i++; }
    return uu.h; //64-bit
    //return (uu.h+(uu.h>>32)); //32-bit
}

哈希数也非常均匀地分布在可能的范围内,没有我可以检测到的聚集-这是使用随机字符串进行检查的。

编辑

还测试了从本地文本文件中提取的单词-结合LibreOffice字典/同义词库单词(英语和法语-超过97000个单词和结构),64位中有0个冲突,32位中有1个冲突:)

(同样在相同的测试集上与FNV1A_Hash_Yorikke,djb2和MurmurHash2进行比较: Yorikke & djb2表现不佳;slash_hash在所有测试中都略好于MurmurHash2 )

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7700400

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档