(2, 3, 4)
说明:
倒排索引就是建立词语与文件的对应关系(词语在什么文件出现, 出现了多少次, 在什么位置出现);
搜索时, 根据用户输入的关键词, 直接在索引中进行查询, 速度更快....):
将文档分成一个一个单独的单词;
去除标点符号;
去除停用词(Stop word);
所谓停用词(Stop word)就是一种语言中最普通的一些单词,由于没有特别的意义,因而大多数情况下不能成为搜索的关键词...,因而创建索引时,这种词会被去掉而减少索引的大小。...创建索引的流程
采集原始数据;
创建文档对象(Document);
创建分析器对象(Analyzer), 用于分词;
创建索引配置对象(IndexWriterConfig), 用于配置Lucene...;
创建索引库目录位置对象(Directory), 指定索引库的存储位置;
创建索引写入对象(IndexWriter), 将文档对象写入索引库;
使用IndexWriter对象, 创建索引;
释放资源