IDF是词组在所有文章中的出现比例,出现越多说明词组对文章的区分度越低越不重要,但是IDF因为需要基于所有文章统计,所以一般是离线去批量计算出一个IDF字典。...优化的方法就是”抽屉原理”,因为2个simhash相似的标准是<=3比特的差异,所以如果我们把64比特的simhash切成4段,每一段16比特,那么不同的3比特最多散落在3段中,至少有1段是完全相同的。...同理,如果我们把simhash切成5段,分别长度 13bit、13bit、13bit、13bit、12bit,因为2个simhash最多有3比特的差异,那么2个simhash至少有2段是完全相同的。...根据抽屉原理,至多3比特的差异会导致至少有2段是相同的,所以一共有这些组合需要索引:
a,b
a,c
a,d
a,e
b,c
b,d
b,e
c,d
c,e
d,e
一个simhash需要索引10份,一个集合的大小是...存储选型
毫无疑问选择hbase,特别适合SCAN遍历集合。
rowkey设计:4字节的segment+1字节的段标识flag+8字节的simhash。