主楼搜索引擎的主流算法 倒排索引源于实际应用中需要根据属性的值来记录,这种只能怪索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录开确定属性值,而是由属性值来确定记录的位置,因而称之为倒排索引inverted index。带有倒排索引的文件我们称之为倒排索引文件,简称倒排文件inverted file
tf-idf概念
倒排索引待解决的问题 1 大小写转换的问题,如python PYTHON应该为一个词 2 题干抽取,looking和look应该处理成一个词 3 分词,若屏蔽系统应该分词为‘屏蔽’、‘系统’ 还是应该为‘屏蔽系统’ 4 倒排索引文件过大 - 压缩编码