具体场景为:在搜索引擎中查询一段文本,10分钟后才能返回?对微博上某种近一周的文本进行聚类,要等1个月?...SimHash是将一段文本hash成一串二进制的指纹(如0010110),然后配用海明距离进行两两文本的比较。...那么SimHash是如何计算的呢?
2、Simhash 的计算
我们以 “Python is sexy” 为例,展示以下 一段文本的SimHash过程:
先给一个总的流程图:
?...(4)合并
现在每个分词都有64位的二进制表示,我们将每一位进行纵向累加,也就是将每个分词的第1位累加,得到总的第1位,每个分词的第2位累加,得到总的第2位,同理第3位、第4位......第64位。...最终得到了一个总的64位的二进制表示:
Python is sexy:
-5, -5, -1, 1, 3, -3, -1, -3, -5, -1, -1, 3, 1, -3, 1, -1, 3, -1,