,4
(1)spider把互联网网页抓过来
(2)spider把互联网网页存储到网页库中(这个对存储的要求很高,要存储几乎整个“万维网”的镜像)
(3)build_index从网页库中读取数据,完成分词...倒排索引是在创建之初可以进行排序预处理,问题转化成两个有序的list求交集,就方便多了。
方案二:有序list求交集,拉链法
?...如上图,假设set1{1,3,5,7,8,9}和set2{2,3,4,5,6,7}的所有元素都在桶值[1, 16]的范围之内,可以用16个bit来描述这两个集合,原集合中的元素x,在这个16bitmap...中的第x个bit为1,此时两个bitmap求交集,只需要将两个bitmap进行“与”操作,结果集bitmap的3,5,7位是1,表明原集合的交集为{3,5,7}
水平分桶,bitmap优化之后,能极大提高求交集的效率...并发量、策略扩展性及架构方案
c)实时搜索引擎核心技术 -> 站长发布1个新网页,Google如何做到15分钟后检索出来