首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ES中文分词器之精确短语匹配(解决了match_phrase匹配不全的问题)

分词器需要达到的效果 1)短语可以精确匹配 2)查找时间要比standard少 3)如果查找的词语不在词典中,也必须要查到 4)如果数据在原文中出现,就一定要查全 IK分词器短语精确匹配的问题 楼主意淫着将所有的单字放入词典中...然后用 ik_smart 将查找短语,因为ik_smart分出的数据是 ik_max_word 的一个子集,如果要查找的短语在原文中有出现,那么一定可以查到。...1和4,在match_phrase看来,这种是不匹配的,所以用ik_smart分词短语时无法查到或者查全数据。...查询时先将查询短语分词,如果第一个token和最后一个token中存在一个字,那么这个字可能与原文中的下一个字或者上一个字组成词,导致ik_max_word无法查到,这时我们用standard分词器在ulluin...至此总算解决了ES中文分词切精确匹配的问题。 源码修改: * 修改IK不支持小语种的问题 * 修改中文之间特殊字符不能过滤的问题。即原文“节 日 快 乐”不能匹配“节日快乐”的问题。

5.4K40

ES中文分词器之精确短语匹配(自定义分词器)

楼主在上篇文章中,提出了将词和字分开,用不同的分词器分别构建索引,来解决match_phrase在中文中的短语或者句子匹配问题。...详细的内容请看上一篇文章: ES中文分词器之精确短语匹配(解决了match_phrase匹配不全的问题) 为什么要自己写分词器?...”是一个前缀,继续扫描“节日快乐”,发现“节日快乐”仅是一个词匹配,则将“节日快乐”存入queue中,结束从“节”开始的扫描。...词典结构 查找时,记录上一次前缀匹配的DicSegment,在前缀的DicSegment中,直接查找当前扫描字符,可以加快匹配速度。...比如说已经匹配到了”节日快“这个前缀,在匹配”节日快乐“时,直接在”快“对应的DicSegment中查找,这样就不用再次匹配”节日“两个字符。

5K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Solr理论基础

    三、Solr之复杂查询 本节较少分析查询如何使用索引找到匹配的文档。...常见的布尔查询运算的图形化表示 短语查询与术语位置 在Lucene索引上除了可以查询词项之外,还可以查询短语。但是索引只包含单个的词项,那么如何搜索完整的短语呢?...短语中的每个词项依然在Lucene索引中分别检索,就好像提交的查询是两个查询词组合new home,而不是“new home”整个短语。...r 匹配 offer, 但是不匹配 officer 注意:不适用于短语内的通配符查询 区间搜索 Solr还提供了在已知区间值中进行搜索的功能,适用于在一个区间内搜索特定的文档子集。...查询规范 协调因子 查准率与查全率 信息检索中的查准率*Procision(精确性的度量)与查全率Recall(全面性的度量)主要是在返回相关结果与尽可能的结果之间作出权衡。

    1.6K30

    Solr中Group和Facet的用法

    先来看一下Group与Facet的区别: 相同点:两者都能分组一个或多个字段并求数量,并支持组内分页 不同点: facet可以对分组数量进行过滤,以及排序,和日期范围,时间范围分组,但是如果你想得到具体的数据...,还得需要查询一次或多次 group可以得到分组的组数量,一次请求,可以拿到所有的数据。...facet可用来做电商网站的这个功能: ? group可以用来做这个功能: ?...Group常用属性介绍: group=true开启group group.field需要分组的字段 group.limit限制每个分组里面返回的数量 group.offset配合limit可实现分页...group.ngroups 开启可得到匹配组的数量 Facet常用属性介绍: facet=true开启facet功能 facet.field分组字段 facet.prefix前缀查询

    1.9K50

    在Solr中搜索人名的小建议

    Lucene语法查询的特性让我们能够处理用户的查询和相似度P: Douglas Turnbull 然后搜索用户输入或与之相似度在P之内的词组或短语,在Lucene语法查询中表现为: 作者:“Douglas...你能发现其中的小错误吗?提示:它与使用短语查询有关。这种方法不适用于哪类查询?...] [dougl] [dougla] [douglas] 有关此过滤器(以及Solr中的许多其他过滤器)需要注意的是,每个生成的标记最终在索引文档中占据相同的位置。...另一方面,我们的相似搜索为Solr提供了一些自由度,可以重新排列标记以满足匹配需要,从而给了自由组合的可能 - 所以会搜到许多重排和缩写的人名。...时,你会如何匹配“Thomas”? 所以,在你的Solr之旅中还有一些有趣的谜题!如果你想要解决这些问题,一定要查看我们的Solr培训! 来分享您的意见吧!

    2.7K120

    sed中的正则匹配

    匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线 \s 任意的空白符(包括空格制表符换页符) [0-9] 任意0到9中数字 [a-zA-Z] 26个英文字母中的一个,不区分大小写 3....匹配在列表中的任意字符 用[]代表这样的列表,比如: echo -e "Cat\nBat\nHat" | sed -n '/[CH]at/ p' 结果输出: Cat Hat []代表从其中选择一个...不在列表中的任意字符 echo -e "Cat\nBat\nHat" | sed -n '/[^CH]at/ p' 仅输出Bat。 5. 匹配出现某种次数(+; * ; ?...特殊字符转义 一些特殊字符比如换行符\n或者回车\r等,匹配的时候在前面再加一个反斜杠转义,如\\r。 8....' | sed -n '/[0-9]\+.[0-9]\+.[0-9]\+.[0-9]\+/p' 值得注意的是,在sed中不支持\d匹配数字,此处须用[0-9]。

    7.4K20

    less中的匹配模式

    首先来看如下的代码,一个 div 元素,分别设置了上下左右的宽度高度和颜色,然后在浏览器中打开发现四个不同的角都是一个小小的三角形如下的小三角那该怎么办呢,复制如上的混合改一下方向?...,后定义的小三角方法覆盖的线定义的,那么我向下的小三角不就是不能用了,那么这个时候就可以利用 less 中的混合的匹配模式来解决如上问题混合的匹配模式就是通过混合的第一个字符串形参,来确定具体要执行哪一个同名混合例如如下代码...triangle(Top, 80px, green); //.triangle(Left, 80px, green); .triangle(Right, 80px, green);}@_:表示通用的匹配模式什么是通用的匹配模式无论同名的哪一个混合被匹配了...,都会先执行通用匹配模式中的代码代码如上图片我正在参与2023腾讯技术创作特训营第二期有奖征文,瓜分万元奖池和键盘手表

    21420

    《搜索和推荐中的深度匹配》——经典匹配模型 2.1 匹配学习

    经典匹配模型 已经提出了使用传统的机器学习技术进行搜索中的查询文档匹配和推荐中的用户项目匹配的方法。这些方法可以在一个更通用的框架内形式化,我们称之为“学习匹配”。...进行学习以选择可以在匹配中表现最好的匹配函数f∈F。在在线匹配中,给定一个测试实例(一对对象)(x,y)∈X×Y,学习到的匹配函数f用来预测对象对之间的匹配度,表示为f(x,y)。...逐项损失函数定义为表示真实匹配度和预测匹配度之间差异的度量,表示为 llist(r^,r)。r^中的预测匹配度与r中的真实匹配度越高,则损失函数的值越低。...当排名函数 g(x,y)仅包含匹配函数 f(x,y)时,只需要学习即可进行匹配。 在搜索中,x上的特征可以是查询x的语义类别,y上的特征可以是PageRank分数和文档y的URL长度。...表2.1列出了匹配学习和排序学习之间的一些关键区别。 最近,研究人员发现,传统的IR中的单变量评分模式是次优的,因为它无法捕获文档间的关系和本地上下文信息。

    3.7K20

    可以精确对应到Clientset中的数据

    没有,强烈推荐您进入上图红框2中的fromUnstructured方法去看细节,这里面是非常精彩的,以podList为例,这是个数据结构,而fromUnstructured只处理原始类型,公务员遴选对于数据结构会调用...structFromUnstructured方法处理,在structFromUnstructured方法中 deployment、pod这些资源,其数据结构是明确的固定的,可以精确对应到Clientset...中的数据结构和方法,但是对于CRD(用户自定义资源),Clientset客户端就无能为力了,此时需要有一种数据结构来承载资源对象的数据,也要有对应的方法来处理这些数据; 此刻,前面提到的Unstructured...可以登场了,没错,把Clientset不支持的资源对象交给Unstructured来承载,接下来看看dynamicClient和Unstructured的关系:湖北遴选:http://lx.gongxuanwang.com...,以后遇到各种资源都能处理之; urce方法指定了本次操作的资源类型;福建遴选:http://lx.gongxuanwang.com/sszt/39.htm List方法向kubernetes发起请求;

    37710

    在ssh中利用Solr服务建立的界面化站内搜索---solr2

    上期回顾:上次主要是介绍了solrj,通过solrj的api与solr服务器进行通信,获取服务器上的索引数据以及在编写程序中遇到的一些问题和解决方法。...本期主要是建立与solr服务器的通信,提供搜索界面输入关键字或搜索规则,根据关键字或规则到索引数据中寻找匹配项并返回结果到界面上。    ...1.本篇的前提是你已经配置好nutch以及solr,并通过网页爬取将索引数据存放到了solr服务器中(solr可以可以部署到tomcat的下也可以不部署,另外我的所有搭建都是在Ubuntu环境下),我配置了中文分词器...,以上工作可以在网上搜,资料很多,过程中也有很多错误需要解决,如果有时间我会对这块做个总结,solr服务器的界面如下: 111913360458550.jpg 111913498112189.jpg...schema.xml中存在之间,如下所示,另外个人理解,对于实体类上的注解    @Field("")应该也是一种映射,就是将实体类的字段与配置文件中的选项相对应。

    85690

    19 个很有用的 ElasticSearch 查询语句 篇一

    基本的匹配(Query)查询 有两种方式来执行一个全文匹配查询: 使用 Search Lite API,它从 url 中读取所有的查询参数 使用完整 JSON 作为请求体,这样你可以使用完整的 Elasticsearch...fields 属性用来指定查询针对的字段,在这个例子中,我们想要对文档的所有字段进行匹配。两个 API 都允许你指定要查询的字段。...短语匹配(Match Phrase)查询 短语匹配查询 要求在请求字符串中的所有查询项必须都在文档中存在,文中顺序也得和请求字符串一致,且彼此相连。...对于非整句类型的查询,_id 为 1 的文档一般会比 _id 为 4 的文档得分高,结果位置也更靠前,因为它的字段长度较短,但是对于 短语匹配类型 查询,由于查询项之间的接近程度是一个计算因素,因此 _...短语前缀(Match Phrase Prefix)查询 短语前缀式查询 能够进行 即时搜索(search-as-you-type) 类型的匹配,或者说提供一个查询时的初级自动补全功能,无需以任何方式准备你的数据

    9.3K51

    Solr在分布式环境中的应用

    solr集群搭建 1、单机版运行正常 2、搭建zookeeper集群(最好也安装到solr集群目录下) 3、复制能够运行solr单机版的tomcat到solr集群目录下 4、修改tomcat端口号...,使其能够运行 5、将 solrHome 中的 solrCore 拷贝一份,重新命名为 szxy(改名为以后的分片名) 6、拷贝四份solrhome到solr集群目录下,修改solrhome下每一个...,数据库和索引库文档的映射关系,数据库的列明和索引库的字段完成映射(导入数据库表到solr中) solr在分布式项目中的应用 前提: 搭建一个mvc环境 步骤: 1、添加solr和zookeeper...坐标 2、在application-dao.xml中添加实例化访问solr集群的api对象 中定义的关键字 package ah.szxy.search.entity; import org.apache.solr.client.solrj.beans.Field; /** *

    88920

    在Lucene或Solr中实现高亮的策略

    景 最近要做个高亮的搜索需求,以前也搞过,所以没啥难度,只不过原来用的是Lucene,现在要换成Solr而已,在Lucene4.x的时候,散仙在以前的文章中也分析过如何在搜索的时候实现高亮,主要有三种方式...,具体内容,请参考散仙以前的2篇文章: 第一:在Lucene4.3中实现高亮的方式 http://qindongliang.iteye.com/blog/1953409 第二:在Solr4.3中服务端高亮的方式...,返回给前台js,便于正则替换,关于把句子分词,可以用lucene也可以用solr,方式分别如下(代码显示比较乱,可以直接点击底部左下角阅读原文): 在Lucene中: Java代码 ?...中,方式1: Java代码 ?...results.add(token.getText()); } } 在solr中,方式2: Java代码 ?

    97650

    《搜索和推荐中的深度匹配》——2.2 搜索和推荐中的匹配模型

    接下来,我们概述搜索和推荐中的匹配模型,并介绍潜在空间中的匹配方法。 2.2.1 搜索中的匹配模型 当应用于搜索时,匹配学习可以描述如下。...可以将学习问题形式化为公式(2.1)中的 pointwise loss function,公式(2.2)中的 pairwise loss function 或公式(2.3)中的 listwise loss...学习的模型必须具有泛化能力,可以对看不见的测试数据进行匹配。 2.2.2 推荐中的匹配模型 当应用于推荐时,匹配学习可以描述如下。给出了一组M个用户U=u1​,......匹配学习推荐的目的是学习基础匹配模型 f(ui​,ij​),该模型可以对矩阵R中零项的评分(相互作用)做出预测: 其中 r^ij​表示用户 ui​和项目 ij​之间的估计得分,以此方式,给定用户...从Q到H的映射函数表示为φ:Q→H,其中φ(q)代表H中q的映射向量。类似地,从D到H的映射函数表示为φ’:D→H,其中φ’(d)代表H中d的映射向量。

    1.5K30
    领券