首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Solr理论基础

搜索引擎是为了解决传统数据库缺点产生。它主要是用来搜索大量非结构化文本,并返回相关搜索文本。 Solr简介 Solr是搜索引擎一种,主要用来文档存储与检索。...常见布尔查询运算图形化表示 短语查询与术语位置 在Lucene索引上除了可以查询词项之外,还可以查询短语。但是索引只包含单个词项,那么如何搜索完整短语呢?...短语每个词项依然在Lucene索引中分别检索,就好像提交查询是两个查询词组合new home,不是“new home”整个短语。...Solr中平衡查全率和查准率一种常见方式:在整个结果集上计算查全率,仅在搜索结果第一页(或少数页)上计算查准率。...根据这一模型,调节Solr相关度评分计算方式,让更好结果被提升到搜索结果顶部,许多不良匹配出现在现在搜索结果底部。

1.5K30
您找到你想要的搜索结果了吗?
是的
没有找到

Apache Solr查询语法

version- 查询语法版本,建议不使用它,由服务器指定默认值。 检索运算符 : 指定字段查指定值,如返回所有值: ?...,只返回productId字段 facet查询 现实分组统计结果 http://localhost:8080/solr/primary/select?...尽管如此,如果你查询是all字段(可能是使用 copy-field 指令),那么还是把它设为false,这样搜索结果能表明哪个字段查询文本未被找到 hl.usePhraseHighlighter:如果一个查询中含有短语...(引号框起来)那么会保证一定要完全匹配短语才会被高亮。...hl.fragsize: 每个snippet返回最大字符数。默认是100.如果为0,那么该字段不会被fragmented且整个字段值会被返回。大字段时不会这么做。

1.2K20

23个最有用Elasticseaerch检索技巧(上)

为您提供了创建更复杂查询更多灵活性(我们将在后面看到)以及指定您希望返回结果。...在下面的示例中,我们指定要返回结果数、偏移量(对分页有用)、我们要返回文档字段以及属性高亮显示。...结果表示方式:size 偏移值表示方式:from 指定返回字段 表示方式 :_source 高亮显示 表示方式 :highliaght GET bookdb_index/book...您还可以指定 minimum_should_match 选项来调整返回结果相关性,详细信息可以在Elasticsearch指南中查询Elasticsearch guide获取。...有关更多信息, Typos and Misspellingsch 6、 Wildcard Query 通配符检索 通配符查询允许您指定匹配模式,不是整个词组(term)检索 ?

1.6K20

19 个很有用 ElasticSearch 查询语句 篇一

DSL 给予你灵活创建更复杂查询和指定返回结果能力(后面,我们会一一阐述)。...在下面例子中,我们指定 size限定返回结果条数,from 指定起始位子,_source 指定要返回字段,以及语法高亮 POST /bookdb_index/book/_search { "...你还可以指定 mininum_should_match 选项来调整返回结果相关程度。具体看后面的例子。 2....通配符(Wildcard)查询 通配符查询 允许你指定匹配模式,不是整个术语。 ? 匹配任何字符 * 匹配零个或多个字符。...,_id 为 1 文档一般会比 _id 为 4 文档得分高,结果位置也更靠前,因为它字段长度较短,但是对于 短语匹配类型 查询,由于查询项之间接近程度是一个计算因素,因此 _id 为 4 文档得分更高

9.1K51

使用Solr涡轮增压您WordPress搜索

由于无法建议搜索短语,捕捉拼写错误,理解单词变体,组织和过滤结果以及索引搜索结果文档,因此WordPress内置标准搜索无法为访问者提供最佳搜索体验。...如果选中,Solr建议备用搜索短语,如果找不到输入搜索短语任何匹配项: 显示结果数量和当前页面:推荐。这对于分页搜索结果很有用。 替换默认WordPress搜索:推荐。...这将使用Solr替换默认WordPress搜索框以显示自动完成建议。 每页结果数:配置每页应显示搜索结果数。...在您输入时,搜索框应在下拉列表中显示一些建议: 输入搜索短语测试搜索结果。应显示匹配结果: 通过输入包含某些拼写错误单词或任何博客帖子中未出现单词来测试自动更正建议。...它应该显示你意思是建议: 通过创建和发布一些添加了文件附件(如PDF)测试帖来测试 文档搜索。更新搜索数据,然后搜索您知道附件中出现短语

4.9K60

Hanlp等七种优秀开源中文分词库推荐

纵观整个开源领域,陆陆续续做中文分词也有不少,不过目前仍在维护且质量较高并不多。下面整理了一些个人认为比较优秀中文分词库,以供大家参考使用。...lucene, solr, elasticsearch 分词接口!...Jcseg 自带了一个 jcseg.properties 文件用于快速配置得到适合不同场合分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等!...l 自动词性标注:基于词库+(统计歧义去除计划),目前效果不是很理想,对词性标注结果要求较高应用不建议使用。...(6).NLP 模式:继承自复杂模式,更改了数字,单位等词条组合方式,增加电子邮件,大陆手机号码,网址,人名,地名,货币等以及无限种自定义实体识别与返回

2.9K40

全文搜索引擎选 ElasticSearch 还是 Solr

而且它还是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们项目也基本瘫痪,因为所有的依赖查询都无结果数据了。...这种方式无疑是耗时最低效,如果报纸排版字体小,而且版块较多甚至有多份报纸,等你扫描完你眼睛也差不多了。 全文检索:对非结构化数据顺序扫描很慢,我们是否可以进行优化?...例如 Google,百度类网站搜索,它们都是根据网页中关键字生成索引,我们在搜索时候输入关键字,它们会将该关键字即索引匹配到所有网页返回;还有常见项目中应用日志搜索等等。...索引大小约为索引文本大小 20-30%。 强大,准确,高效搜索算法: 排名搜索:首先返回最佳结果。 许多强大查询类型:短语查询,通配符查询,邻近查询,范围查询等。...使用合并结果进行多索引搜索。 允许同时更新和搜索。 灵活分面,突出显示,连接和结果分组。 快速,内存效率和错误容忍建议。 可插拔排名模型,包括矢量空间模型和 Okapi BM25。

1.1K10

全文搜索引擎 Elasticsearch 还是 Solr

而且它还是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们项目也基本瘫痪,因为所有的依赖查询都无结果数据了。...这种方式无疑是耗时最低效,如果报纸排版字体小,而且版块较多甚至有多份报纸,等你扫描完你眼睛也差不多了。 全文检索:对非结构化数据顺序扫描很慢,我们是否可以进行优化?...例如 Google,百度类网站搜索,它们都是根据网页中关键字生成索引,我们在搜索时候输入关键字,它们会将该关键字即索引匹配到所有网页返回;还有常见项目中应用日志搜索等等。...索引大小约为索引文本大小 20-30%。 强大,准确,高效搜索算法: 排名搜索:首先返回最佳结果。 许多强大查询类型:短语查询,通配符查询,邻近查询,范围查询等。...使用合并结果进行多索引搜索。 允许同时更新和搜索。 灵活分面,突出显示,连接和结果分组。 快速,内存效率和错误容忍建议。 可插拔排名模型,包括矢量空间模型和 Okapi BM25。

1.2K20

全文搜索引擎选ElasticSearch还是Solr

而且它还是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们项目也基本瘫痪,因为所有的依赖查询都无结果数据了。...这种方式无疑是耗时最低效,如果报纸排版字体小,而且版块较多甚至有多份报纸,等你扫描完你眼睛也差不多了。 全文检索:对非结构化数据顺序扫描很慢,我们是否可以进行优化?...例如 Google,百度类网站搜索,它们都是根据网页中关键字生成索引,我们在搜索时候输入关键字,它们会将该关键字即索引匹配到所有网页返回;还有常见项目中应用日志搜索等等。...索引大小约为索引文本大小 20-30%。 强大,准确,高效搜索算法: 排名搜索:首先返回最佳结果。 许多强大查询类型:短语查询,通配符查询,邻近查询,范围查询等。...使用合并结果进行多索引搜索。 允许同时更新和搜索。 灵活分面,突出显示,连接和结果分组。 快速,内存效率和错误容忍建议。 可插拔排名模型,包括矢量空间模型和 Okapi BM25。

86510

全文搜索引擎选 ElasticSearch 还是 Solr

而且它还是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们项目也基本瘫痪,因为所有的依赖查询都无结果数据了。...这种方式无疑是耗时最低效,如果报纸排版字体小,而且版块较多甚至有多份报纸,等你扫描完你眼睛也差不多了。 全文检索:对非结构化数据顺序扫描很慢,我们是否可以进行优化?...例如 Google,百度类网站搜索,它们都是根据网页中关键字生成索引,我们在搜索时候输入关键字,它们会将该关键字即索引匹配到所有网页返回;还有常见项目中应用日志搜索等等。...4、索引大小约为索引文本大小 20-30%。 强大,准确,高效搜索算法: 1、排名搜索:首先返回最佳结果。 2、许多强大查询类型:短语查询,通配符查询,邻近查询,范围查询等。...5、使用合并结果进行多索引搜索。 6、允许同时更新和搜索。 7、灵活分面,突出显示,连接和结果分组。 8、快速,内存效率和错误容忍建议

97120

全文搜索引擎技术详解之Apache Solr使用

所有功能 RESTful API: 要与Solr通信,可以使用RESTful服务与Solr通信,可以使用XML,JSON,CSV等格式文件作为输入文档,并以相同文件格式获取结果 全文搜索: Solr...提供了全文搜索所需所有功能:令牌,短语,拼写检查,通配符,自动完成 企业准备: 根据企业或组织需要,Solr可以部署在任何类型系统:独立,分布式,云 灵活可扩展: 通过扩展Java类并进行相关配置...有助于在网上定位信息 用户可以通过以关键字或短语形式将查询传递到搜索引擎中来搜索信息,然后搜索引擎搜索其数据库并向用户返回相关链接 搜索引擎组件 搜索引擎有三个组件: Web爬虫: 一个收集网络信息软件组件....索引类似于在书开始页或末尾处目录索引,其中常见单词以页码显示,使得这些单词可以快速追踪,不是搜索整本书 用于搜索用户接口: 当索引数据库就绪,应用程序就可以执行搜索操作.为了帮助用户进行搜索,应用必须提供用户接口...即根据观测到数据(标注好语料)对模型参数进行估计.即 训练 在分词阶段再通过模型计算各种分词出现概率,将概率最大分词结果作为最终结果 常见序列标注模型:HMM,CRF 基于统计及机器学习分词方式优点

1.2K10

全文搜索,ElasticSearch和Solr哪个更好用?

而且它还是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们项目也基本瘫痪,因为所有的依赖查询都无结果数据了。...这种方式无疑是耗时最低效,如果报纸排版字体小,而且版块较多甚至有多份报纸,等你扫描完你眼睛也差不多了。 全文检索:对非结构化数据顺序扫描很慢,我们是否可以进行优化?...例如 Google,百度类网站搜索,它们都是根据网页中关键字生成索引,我们在搜索时候输入关键字,它们会将该关键字即索引匹配到所有网页返回;还有常见项目中应用日志搜索等等。...索引大小约为索引文本大小 20-30%。 强大,准确,高效搜索算法: 排名搜索:首先返回最佳结果。 许多强大查询类型:短语查询,通配符查询,邻近查询,范围查询等。...使用合并结果进行多索引搜索。 允许同时更新和搜索。 灵活分面,突出显示,连接和结果分组。 快速,内存效率和错误容忍建议。 可插拔排名模型,包括矢量空间模型和 Okapi BM25。

1.7K20

全文搜索引擎技术详解之Apache Solr使用

所有功能 RESTful API: 要与Solr通信,可以使用RESTful服务与Solr通信,可以使用XML,JSON,CSV等格式文件作为输入文档,并以相同文件格式获取结果 全文搜索: Solr...提供了全文搜索所需所有功能:令牌,短语,拼写检查,通配符,自动完成 企业准备: 根据企业或组织需要,Solr可以部署在任何类型系统:独立,分布式,云 灵活可扩展: 通过扩展Java类并进行相关配置...有助于在网上定位信息 用户可以通过以关键字或短语形式将查询传递到搜索引擎中来搜索信息,然后搜索引擎搜索其数据库并向用户返回相关链接 搜索引擎组件 搜索引擎有三个组件: Web爬虫: 一个收集网络信息软件组件....索引类似于在书开始页或末尾处目录索引,其中常见单词以页码显示,使得这些单词可以快速追踪,不是搜索整本书 用于搜索用户接口: 当索引数据库就绪,应用程序就可以执行搜索操作.为了帮助用户进行搜索,应用必须提供用户接口...即根据观测到数据(标注好语料)对模型参数进行估计.即 训练 在分词阶段再通过模型计算各种分词出现概率,将概率最大分词结果作为最终结果 常见序列标注模型:HMM,CRF 基于统计及机器学习分词方式优点

1.5K00

搜索引擎选 ElasticSearch 还是 Solr

而且它还是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们项目也基本瘫痪,因为所有的依赖查询都无结果数据了。...这种方式无疑是耗时最低效,如果报纸排版字体小,而且版块较多甚至有多份报纸,等你扫描完你眼睛也差不多了。 全文检索:对非结构化数据顺序扫描很慢,我们是否可以进行优化?...例如 Google,百度类网站搜索,它们都是根据网页中关键字生成索引,我们在搜索时候输入关键字,它们会将该关键字即索引匹配到所有网页返回;还有常见项目中应用日志搜索等等。...4、索引大小约为索引文本大小 20-30%。 强大,准确,高效搜索算法: 1、排名搜索:首先返回最佳结果。 2、许多强大查询类型:短语查询,通配符查询,邻近查询,范围查询等。...5、使用合并结果进行多索引搜索。 6、允许同时更新和搜索。 7、灵活分面,突出显示,连接和结果分组。 8、快速,内存效率和错误容忍建议

1.1K40

Hi,Java工程师:关于全文搜索引擎,这篇文章不得不看!

而且它还是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们项目也基本瘫痪,因为所有的依赖查询都无结果数据了。...这种方式无疑是耗时最低效,如果报纸排版字体小,而且版块较多甚至有多份报纸,等你扫描完你眼睛也差不多了。 全文检索:对非结构化数据顺序扫描很慢,我们是否可以进行优化?...例如 Google,百度类网站搜索,它们都是根据网页中关键字生成索引,我们在搜索时候输入关键字,它们会将该关键字即索引匹配到所有网页返回;还有常见项目中应用日志搜索等等。...索引大小约为索引文本大小 20-30%。 强大,准确,高效搜索算法: 排名搜索:首先返回最佳结果。 许多强大查询类型:短语查询,通配符查询,邻近查询,范围查询等。...使用合并结果进行多索引搜索。 允许同时更新和搜索。 灵活分面,突出显示,连接和结果分组。 快速,内存效率和错误容忍建议。 可插拔排名模型,包括矢量空间模型和 Okapi BM25。

1.6K31

全文搜索引擎选ElasticSearch还是Solr

而且它还是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们项目也基本瘫痪,因为所有的依赖查询都无结果数据了。...这种方式无疑是耗时最低效,如果报纸排版字体小,而且版块较多甚至有多份报纸,等你扫描完你眼睛也差不多了。 全文检索:对非结构化数据顺序扫描很慢,我们是否可以进行优化?...例如 Google,百度类网站搜索,它们都是根据网页中关键字生成索引,我们在搜索时候输入关键字,它们会将该关键字即索引匹配到所有网页返回;还有常见项目中应用日志搜索等等。...索引大小约为索引文本大小 20-30%。 强大,准确,高效搜索算法: 排名搜索:首先返回最佳结果。 许多强大查询类型:短语查询,通配符查询,邻近查询,范围查询等。...使用合并结果进行多索引搜索。 允许同时更新和搜索。 灵活分面,突出显示,连接和结果分组。 快速,内存效率和错误容忍建议。 可插拔排名模型,包括矢量空间模型和 Okapi BM25。

1.1K10
领券