精确匹配Solr中的短语 - 腾讯云开发者社区

分词器需要达到的效果 1）短语可以精确匹配 2）查找时间要比standard少 3）如果查找的词语不在词典中，也必须要查到 4）如果数据在原文中出现，就一定要查全 IK分词器短语精确匹配的问题楼主意淫着将所有的单字放入词典中...然后用 ik_smart 将查找短语，因为ik_smart分出的数据是 ik_max_word 的一个子集，如果要查找的短语在原文中有出现，那么一定可以查到。...1和4，在match_phrase看来，这种是不匹配的，所以用ik_smart分词短语时无法查到或者查全数据。...查询时先将查询短语分词，如果第一个token和最后一个token中存在一个字，那么这个字可能与原文中的下一个字或者上一个字组成词，导致ik_max_word无法查到，这时我们用standard分词器在ulluin...至此总算解决了ES中文分词切精确匹配的问题。源码修改： * 修改IK不支持小语种的问题 * 修改中文之间特殊字符不能过滤的问题。即原文“节日快乐”不能匹配“节日快乐”的问题。

5.4K4 0

ES中文分词器之精确短语匹配（自定义分词器）

楼主在上篇文章中，提出了将词和字分开，用不同的分词器分别构建索引，来解决match_phrase在中文中的短语或者句子匹配问题。...详细的内容请看上一篇文章： ES中文分词器之精确短语匹配（解决了match_phrase匹配不全的问题）为什么要自己写分词器？...”是一个前缀，继续扫描“节日快乐”，发现“节日快乐”仅是一个词匹配，则将“节日快乐”存入queue中，结束从“节”开始的扫描。...词典结构查找时，记录上一次前缀匹配的DicSegment，在前缀的DicSegment中，直接查找当前扫描字符，可以加快匹配速度。...比如说已经匹配到了”节日快“这个前缀，在匹配”节日快乐“时，直接在”快“对应的DicSegment中查找，这样就不用再次匹配”节日“两个字符。

5K2 0

您找到你想要的搜索结果了吗？

是的

没有找到

Solr理论基础

三、Solr之复杂查询本节较少分析查询如何使用索引找到匹配的文档。...常见的布尔查询运算的图形化表示短语查询与术语位置在Lucene索引上除了可以查询词项之外，还可以查询短语。但是索引只包含单个的词项，那么如何搜索完整的短语呢？...短语中的每个词项依然在Lucene索引中分别检索，就好像提交的查询是两个查询词组合new home，而不是“new home”整个短语。...r 匹配 offer, 但是不匹配 officer 注意：不适用于短语内的通配符查询区间搜索 Solr还提供了在已知区间值中进行搜索的功能，适用于在一个区间内搜索特定的文档子集。...查询规范协调因子查准率与查全率信息检索中的查准率*Procision(精确性的度量)与查全率Recall(全面性的度量)主要是在返回相关结果与尽可能的结果之间作出权衡。

1.6K3 0

Solr中Group和Facet的用法

先来看一下Group与Facet的区别：相同点：两者都能分组一个或多个字段并求数量，并支持组内分页不同点： facet可以对分组数量进行过滤，以及排序，和日期范围，时间范围分组，但是如果你想得到具体的数据...，还得需要查询一次或多次 group可以得到分组的组数量，一次请求，可以拿到所有的数据。...facet可用来做电商网站的这个功能： ? group可以用来做这个功能： ?...Group常用属性介绍： group=true开启group group.field需要分组的字段 group.limit限制每个分组里面返回的数量 group.offset配合limit可实现分页...group.ngroups 开启可得到匹配组的数量 Facet常用属性介绍： facet=true开启facet功能 facet.field分组字段 facet.prefix前缀查询

1.9K5 0

solr中numDocs和maxDoc的区别

一童鞋发现，数据库中count的数量和索引中的数量不一致。全量索引完成后显示，成功1400，但是查询却是1435。经面板查看显示，numDocs1435，maxDoc1400 。...参数说明： numDocs：当前系统中的文档数量，它有可能大于xml文件个数，因为一个xml文件可能有多个doc标签。...maxDoc：maxDoc有可能比numDocs的值要大，比如重复post同一份文件后，maxDoc值就增大了。...deletedDocs：重复post的文件会替换掉老的文档，同时deltedDocs的值也会加1，不过这只是逻辑上的删除，并没有真正从索引中移除掉。

1.2K10 0

在Solr中搜索人名的小建议

Lucene语法查询的特性让我们能够处理用户的查询和相似度P： Douglas Turnbull 然后搜索用户输入或与之相似度在P之内的词组或短语，在Lucene语法查询中表现为：作者：“Douglas...你能发现其中的小错误吗？提示：它与使用短语查询有关。这种方法不适用于哪类查询？...] [dougl] [dougla] [douglas] 有关此过滤器（以及Solr中的许多其他过滤器）需要注意的是，每个生成的标记最终在索引文档中占据相同的位置。...另一方面，我们的相似搜索为Solr提供了一些自由度，可以重新排列标记以满足匹配需要，从而给了自由组合的可能 - 所以会搜到许多重排和缩写的人名。...时，你会如何匹配“Thomas”？所以，在你的Solr之旅中还有一些有趣的谜题！如果你想要解决这些问题，一定要查看我们的Solr培训！来分享您的意见吧！

2.7K12 0

Solr 中 core 创建后的数据导入

前言在笔记1中，我们已经介绍了Solr下载及单节点启动和配置，以及如何创建core，但是如何进行数据导入却还没有介绍。...--以下的dataSource指定上边的dataSource标签中的name属性，并不是必须要加的，除非你配置了多个数据源，这里我是一个数据源，所以，下边的dataSource属性是可以去掉的，另外，pk...属性指定的是manage-schema文件中的uniqueKey标签中的值，即主键--> 的字段column属性对应数据库中字段名称，name是对应solr这边配置的名称；注意id，默认名称即为id，表示solr这边一条数据的主键，为需要的字段建立索引关系...solr-xxx/webapps/solr/WEB-INF/lib文件夹中；

7512 0

Rust中的模式匹配

一、let模式匹配在其它一些语言中，let x = 5 之类的语句，仅仅只是赋值语句。但是在rust中，可以换个角度理解，认为5这个值匹配到了x变量。...("x=2"), //"_"相当于java中switch的default _ => println!...//精确匹配Some(5),x=Some(2),会匹配失败 Some(5) => 5, _ => -1, }; println!...另外_在模式匹配中，还可以避免所有权转移： let s = Some(String::from("hello")); //由于_不关注值，所以s的所有权不会move到_ if let...("p中的x,y匹配到{},{}", x, y), _ => println!("others"), }

1.8K2 0

sed中的正则匹配

匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线 \s 任意的空白符(包括空格制表符换页符) [0-9] 任意0到9中数字 [a-zA-Z] 26个英文字母中的一个，不区分大小写 3....匹配在列表中的任意字符用[]代表这样的列表，比如： echo -e "Cat\nBat\nHat" | sed -n '/[CH]at/ p' 结果输出： Cat Hat []代表从其中选择一个...不在列表中的任意字符 echo -e "Cat\nBat\nHat" | sed -n '/[^CH]at/ p' 仅输出Bat。 5. 匹配出现某种次数（+; * ; ?...特殊字符转义一些特殊字符比如换行符\n或者回车\r等，匹配的时候在前面再加一个反斜杠转义，如\\r。 8....' | sed -n '/[0-9]\+.[0-9]\+.[0-9]\+.[0-9]\+/p' 值得注意的是，在sed中不支持\d匹配数字，此处须用[0-9]。

7.4K2 0

Swift中的模式匹配

其中强大的模式匹配绝对让你用的很爽。主要整理自：pattern-matching-in-swift 迭代器中我们经常会在for循环中，使用if判断。...而Swift中where判断，则是此类情况的绝佳解决方案。...但是实际上，swift中optional值底层是Optional的枚举enum，而且swift的模式匹配不是只在switch下才能工作。...，在switch匹配中，我们同样可以将? 使用在case的情况，以此来匹配有值的情况。...，以及自定义模式匹配 Swift中模式匹配部分依赖变量相关语法(例如case let)，这里值和模式匹配的真正逻辑并没有到编译那一步，甚至也不是语言语法，类似很多貌似“底层”的特性其实是在标准库中通过常规的

1.8K2 0

expect中的正则匹配

匹配项的具体内容 ==> bbbcabkkkk /set expect_out(1,start) 匹配项的起始位置 ==>...2 第一个括号的匹配项---set expect_out(1,end) 匹配项的结束位置 ==> 3 \set expect_out(1,...string) 匹配项的具体内容 ==> bb /set expect_out(2,start) 匹配项的起始位置 ==>...*(k+) 第一个括号对应(b*)的左括号，此时在string中的位置是1 第二个括号的start和end都是10 注意....*在这里是贪婪匹配，也就是说会尽可能多的匹配所以pattern的各个项对应关系：匹配项匹配值 b b (b*) bb .* cabkkk (k+) k 版权声明：本文内容由互联网用户自发贡献，

1.2K3 0

less中的匹配模式

首先来看如下的代码，一个 div 元素，分别设置了上下左右的宽度高度和颜色，然后在浏览器中打开发现四个不同的角都是一个小小的三角形如下的小三角那该怎么办呢，复制如上的混合改一下方向？...，后定义的小三角方法覆盖的线定义的，那么我向下的小三角不就是不能用了，那么这个时候就可以利用 less 中的混合的匹配模式来解决如上问题混合的匹配模式就是通过混合的第一个字符串形参，来确定具体要执行哪一个同名混合例如如下代码...triangle(Top, 80px, green); //.triangle(Left, 80px, green); .triangle(Right, 80px, green);}@_：表示通用的匹配模式什么是通用的匹配模式无论同名的哪一个混合被匹配了...，都会先执行通用匹配模式中的代码代码如上图片我正在参与2023腾讯技术创作特训营第二期有奖征文，瓜分万元奖池和键盘手表

2142 0

《搜索和推荐中的深度匹配》——经典匹配模型 2.1 匹配学习

经典匹配模型已经提出了使用传统的机器学习技术进行搜索中的查询文档匹配和推荐中的用户项目匹配的方法。这些方法可以在一个更通用的框架内形式化，我们称之为“学习匹配”。...进行学习以选择可以在匹配中表现最好的匹配函数f∈F。在在线匹配中，给定一个测试实例（一对对象）（x，y）∈X×Y，学习到的匹配函数f用来预测对象对之间的匹配度，表示为f（x，y）。...逐项损失函数定义为表示真实匹配度和预测匹配度之间差异的度量，表示为 llist（r^，r）。r^中的预测匹配度与r中的真实匹配度越高，则损失函数的值越低。...当排名函数 g（x，y）仅包含匹配函数 f（x，y）时，只需要学习即可进行匹配。在搜索中，x上的特征可以是查询x的语义类别，y上的特征可以是PageRank分数和文档y的URL长度。...表2.1列出了匹配学习和排序学习之间的一些关键区别。最近，研究人员发现，传统的IR中的单变量评分模式是次优的，因为它无法捕获文档间的关系和本地上下文信息。

3.7K2 0

可以精确对应到Clientset中的数据

没有，强烈推荐您进入上图红框2中的fromUnstructured方法去看细节，这里面是非常精彩的，以podList为例，这是个数据结构，而fromUnstructured只处理原始类型，公务员遴选对于数据结构会调用...structFromUnstructured方法处理，在structFromUnstructured方法中 deployment、pod这些资源，其数据结构是明确的固定的，可以精确对应到Clientset...中的数据结构和方法，但是对于CRD（用户自定义资源），Clientset客户端就无能为力了，此时需要有一种数据结构来承载资源对象的数据，也要有对应的方法来处理这些数据；此刻，前面提到的Unstructured...可以登场了，没错，把Clientset不支持的资源对象交给Unstructured来承载，接下来看看dynamicClient和Unstructured的关系：湖北遴选：http://lx.gongxuanwang.com...，以后遇到各种资源都能处理之； urce方法指定了本次操作的资源类型；福建遴选：http://lx.gongxuanwang.com/sszt/39.htm List方法向kubernetes发起请求；

3771 0

在ssh中利用Solr服务建立的界面化站内搜索---solr2

上期回顾：上次主要是介绍了solrj，通过solrj的api与solr服务器进行通信，获取服务器上的索引数据以及在编写程序中遇到的一些问题和解决方法。...本期主要是建立与solr服务器的通信，提供搜索界面输入关键字或搜索规则，根据关键字或规则到索引数据中寻找匹配项并返回结果到界面上。 ...1.本篇的前提是你已经配置好nutch以及solr，并通过网页爬取将索引数据存放到了solr服务器中（solr可以可以部署到tomcat的下也可以不部署，另外我的所有搭建都是在Ubuntu环境下），我配置了中文分词器...，以上工作可以在网上搜，资料很多，过程中也有很多错误需要解决，如果有时间我会对这块做个总结，solr服务器的界面如下： 111913360458550.jpg 111913498112189.jpg...schema.xml中存在之间，如下所示，另外个人理解，对于实体类上的注解 @Field("")应该也是一种映射，就是将实体类的字段与配置文件中的选项相对应。

8569 0

19 个很有用的 ElasticSearch 查询语句篇一

基本的匹配（Query）查询有两种方式来执行一个全文匹配查询：使用 Search Lite API，它从 url 中读取所有的查询参数使用完整 JSON 作为请求体，这样你可以使用完整的 Elasticsearch...fields 属性用来指定查询针对的字段，在这个例子中，我们想要对文档的所有字段进行匹配。两个 API 都允许你指定要查询的字段。...短语匹配(Match Phrase)查询短语匹配查询要求在请求字符串中的所有查询项必须都在文档中存在，文中顺序也得和请求字符串一致，且彼此相连。...对于非整句类型的查询，_id 为 1 的文档一般会比 _id 为 4 的文档得分高，结果位置也更靠前，因为它的字段长度较短，但是对于短语匹配类型查询，由于查询项之间的接近程度是一个计算因素，因此 _...短语前缀（Match Phrase Prefix）查询短语前缀式查询能够进行即时搜索（search-as-you-type）类型的匹配，或者说提供一个查询时的初级自动补全功能，无需以任何方式准备你的数据

9.3K5 1

Solr在分布式环境中的应用

solr集群搭建 1、单机版运行正常 2、搭建zookeeper集群（最好也安装到solr集群目录下） 3、复制能够运行solr单机版的tomcat到solr集群目录下 4、修改tomcat端口号...，使其能够运行 5、将 solrHome 中的 solrCore 拷贝一份，重新命名为 szxy（改名为以后的分片名） 6、拷贝四份solrhome到solr集群目录下，修改solrhome下每一个...，数据库和索引库文档的映射关系，数据库的列明和索引库的字段完成映射（导入数据库表到solr中） solr在分布式项目中的应用前提：搭建一个mvc环境步骤: 1、添加solr和zookeeper...坐标 2、在application-dao.xml中添加实例化访问solr集群的api对象中定义的关键字 package ah.szxy.search.entity; import org.apache.solr.client.solrj.beans.Field; /** *

8892 0

在Lucene或Solr中实现高亮的策略

景最近要做个高亮的搜索需求，以前也搞过，所以没啥难度，只不过原来用的是Lucene，现在要换成Solr而已，在Lucene4.x的时候，散仙在以前的文章中也分析过如何在搜索的时候实现高亮，主要有三种方式...，具体内容，请参考散仙以前的2篇文章：第一：在Lucene4.3中实现高亮的方式 http://qindongliang.iteye.com/blog/1953409 第二：在Solr4.3中服务端高亮的方式...，返回给前台js，便于正则替换，关于把句子分词，可以用lucene也可以用solr，方式分别如下（代码显示比较乱，可以直接点击底部左下角阅读原文）：在Lucene中： Java代码 ?...中，方式1： Java代码 ?...results.add(token.getText()); } } 在solr中，方式2： Java代码 ?

9765 0

sql模糊匹配中%、_的处理

防sql注入之模糊匹配中%、_处理：　　　　　　　StringBuilder sbSql = new StringBuilder(); sbSql.Append(@"SELECT...{ sbSql.AppendFormat(@" AND t.Name like '%{0}%'", name); } 上述采用的是拼接字符串

1.5K1 0

《搜索和推荐中的深度匹配》——2.2 搜索和推荐中的匹配模型

接下来，我们概述搜索和推荐中的匹配模型，并介绍潜在空间中的匹配方法。 2.2.1 搜索中的匹配模型当应用于搜索时，匹配学习可以描述如下。...可以将学习问题形式化为公式（2.1）中的 pointwise loss function，公式（2.2）中的 pairwise loss function 或公式（2.3）中的 listwise loss...学习的模型必须具有泛化能力，可以对看不见的测试数据进行匹配。 2.2.2 推荐中的匹配模型当应用于推荐时，匹配学习可以描述如下。给出了一组M个用户U=u1，......匹配学习推荐的目的是学习基础匹配模型 f（ui，ij），该模型可以对矩阵R中零项的评分（相互作用）做出预测：其中 r^ij表示用户 ui和项目 ij之间的估计得分，以此方式，给定用户...从Q到H的映射函数表示为φ：Q→H，其中φ（q）代表H中q的映射向量。类似地，从D到H的映射函数表示为φ’：D→H，其中φ’（d）代表H中d的映射向量。

1.5K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

ES中文分词器之精确短语匹配（解决了match_phrase匹配不全的问题）

ES中文分词器之精确短语匹配（自定义分词器）

Solr理论基础

Solr中Group和Facet的用法

solr中numDocs和maxDoc的区别

在Solr中搜索人名的小建议

Solr 中 core 创建后的数据导入

Rust中的模式匹配

sed中的正则匹配

Swift中的模式匹配

expect中的正则匹配

less中的匹配模式

《搜索和推荐中的深度匹配》——经典匹配模型 2.1 匹配学习

可以精确对应到Clientset中的数据

在ssh中利用Solr服务建立的界面化站内搜索---solr2

19 个很有用的 ElasticSearch 查询语句篇一

Solr在分布式环境中的应用

在Lucene或Solr中实现高亮的策略

sql模糊匹配中%、_的处理

《搜索和推荐中的深度匹配》——2.2 搜索和推荐中的匹配模型

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐