借助基础的lucence框架理解搜索引擎的原理~~ ref: Lucene in Action:
信息超负荷问题解决方案: 新的用户接口/智能代理 Lucene是一个高性能,可伸缩的信息搜索库,可以为应用程序添加索引和搜索能力. 版本: java/Perl/Python/C++/net 搜索引擎的核心是索引 搜索的质量用精确度和召回率来描述,召回率衡量系统搜索到相关文档的能力,精确度描述过滤不相关的能力
正文摘要文件(存储域,名称,偏移位置,域数据) 倒排信息文件(字典,文本,所在域,索引,词频) 顺排信息文件(词向量索引,向量域信息) 打分相关文件
实现:
对结构化数据搜索:SQL,元数据,windows搜索对文件名,类型,修改时间 对非结构化数据搜索:windows搜索,grep,搜索引擎–>全文搜索:顺序扫描法,索引法
反向索引: 字符串到文件的映射(词典->倒排表)
创建索引:
搜索: