,首先查询 仙 对应的数组索引,然后查询 士,可,最后根据属性存储的数组索引做交集,交集出的数组索引则是查询出来的数据....记录所有属性值对应的数据内容位置,根据属性值去找对应数据内容,通过属性值去确定一个数据的内容,这个索引方式就称为倒排索引
分词
这个时候获取大家就发现了一个新的问题:当一个属性值存在几千个字符时,是不是代表着会存储几千个索引内容呢...(非北大标准,CSW分词中定义)
识别文章中的所有字符,通过预设定/或者ai自动识别的方案,自动将一句话/一篇文章内的字符串拆分为一个个的词语:
php是世界上最好的语言....索引和查询流程为:
- 文档标明id存储
- 文档解析field
- 文档分析field,分词
- 建立索引,索引进入索引库
- 用户通过查询接口
- 创建查询语言
- lucene 执行查询,通过索引库获得数据...- 渲染数据
- 响应到用户端
elasticsearch
在原来的lucene 全文搜索引擎中,它仅仅是一个全文搜索架构,提供了完整的查询引擎架构,如果需要使用它,那就意味着要自己实现各种存储,查询的调用