在Lucene中添加BM25评分 - 腾讯云开发者社区

文章/答案/技术大牛

发布

ElasticSearch实战指南必知必会：安装中文分词器、ES-Python使用、高级查询实现位置坐标搜索以及打分机制

在Lucene和es中这种相关性称为得分。在开始计算得分之前，es使用了被搜索词条的频率和它有多常见来影响得分，从两个方面理解：一个词条在某篇文档中出现的次数越多，该文档就越相关。...4.2 Lucene 评分公式之前的讨论Lucene默认评分公式被称为TF-IDF，一个基于词频和逆文档词频的公式。Lucene实用评分公式如下：你以为我会着重介绍这个该死的公式？！...4.3 其他的打分方法除了TF-IDF结合向量空间模型的实用评分模式，是es和Lucene最为主流的评分机制，但这并不是唯一的，除了TF-IDF这种实用模型之外，其他的模型包括： Okapi BM25...通过在字段名称后添加一个^符号和boost的值。...5.带你理解文档是如何评分的一切都不是你想的那样！是的，在es中，一个文档要比另一个文档更符合某个查询很可能跟我们想象的不太一样！

8713 0

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节

从 Elasticsearch 5 开始，Elasticsearch 的默认相似度算法是 Okapi BM25，Okapi BM25模型于 1994 年提出，BM25 的 BM 是缩写自 Best Match...相似性（评分/排名模型）定义了匹配文档的评分方式，对一组文档执行搜索并提供按相关性排序的结果。在这篇文章中，我们将一步步拆解 Okapi BM25 模型的内部工作原理。...在拆解评分算法之前，必须简单解释一下背后的理论——Elasticsearch 基于 Lucene。要了解 Elasticsearch，我们必须了解 Lucene。...上述公式中： D：代表文档。 Q：代表查询。 K1：自由参数，默认值：1.2。 b：自由参数，默认值：0.75。...参见 Lucene 官方文档： https://lucene.apache.org/core/8_0_0/core/org/apache/lucene/search/similarities/BM25Similarity.html

2.6K5 0

您找到你想要的搜索结果了吗？

是的

没有找到

ElasticSearch实战指南必知必会：安装分词器、高级查询、打分机制

在Lucene和es中这种相关性称为得分。在开始计算得分之前，es使用了被搜索词条的频率和它有多常见来影响得分，从两个方面理解：一个词条在某篇文档中出现的次数越多，该文档就越相关。...4.2 Lucene 评分公式之前的讨论Lucene默认评分公式被称为TF-IDF，一个基于词频和逆文档词频的公式。Lucene实用评分公式如下：你以为我会着重介绍这个该死的公式？！...4.3 其他的打分方法除了TF-IDF结合向量空间模型的实用评分模式，是es和Lucene最为主流的评分机制，但这并不是唯一的，除了TF-IDF这种实用模型之外，其他的模型包括：Okapi BM25。...通过在字段名称后添加一个^符号和boost的值。...5.带你理解文档是如何评分的一切都不是你想的那样！是的，在es中，一个文档要比另一个文档更符合某个查询很可能跟我们想象的不太一样！

5725 0

在Lucene或Solr中实现高亮的策略

景最近要做个高亮的搜索需求，以前也搞过，所以没啥难度，只不过原来用的是Lucene，现在要换成Solr而已，在Lucene4.x的时候，散仙在以前的文章中也分析过如何在搜索的时候实现高亮，主要有三种方式...，具体内容，请参考散仙以前的2篇文章：第一：在Lucene4.3中实现高亮的方式 http://qindongliang.iteye.com/blog/1953409 第二：在Solr4.3中服务端高亮的方式...，返回给前台js，便于正则替换，关于把句子分词，可以用lucene也可以用solr，方式分别如下（代码显示比较乱，可以直接点击底部左下角阅读原文）：在Lucene中： Java代码 ?...中，方式1： Java代码 ?...中，方式2： Java代码 ?

9765 0

机器学习在信用评分卡中的应用

F卡；信用评分卡一般称为A卡；贷中评分卡称为B卡；贷后催收评分卡称为C卡。...其中，用户自述数据，除性别、年龄等少数信息外，诸如用户职业、收入水平等信息在申请过程中往往很难进行核验。...评分卡建模特征和样本标签准备好后，评分卡建模的过程则比较自然。虽然深度学习等技术在互联网领域已大行其道，在信用评分卡建模中，逻辑回归或GBDT等仍然是目前主流的建模算法。...一方面是金融领域对特征的可解释性要求会更高，通过LR或GBDT建模，比较容易直观得到每个特征在模型结果中的权重，并根据业务经验解释权重系数的合理性。另一方面，实际评分卡建模中，一般入模特征维度并不高。...在低维度建模中，LR和GBDT已经可以取得比较可观的效果。模型评估模型建立后，需要对模型的预测能力、稳定性进行评估。信用评分模型常用的评估指标为KS、AUC等。

1.2K5 1

机器学习在信用评分卡中的应用

2.7K4 2

Lucene初步学习及在博客系统中应用demo

在本文的示例中,我使用Lucene给我的博客建立一个简单的搜索系统,因为之前的搜索系统是在前端完成的,这次学习的Lucene正好可以拿来完成一个后端的搜索系统....体验地址在博客的SEARCH页面中添加了入口,可以输入关键字进行搜索. 搜索效率比较高,我在后台实际测试在毫秒级....但是在本文中,我采用的是每次清空索引,全部重建,原因主要有以下: 我的数据量很小,1k篇文章最多了. 我只是写个Demo,增量添加索引打算后续研究以下....我测试的效率还不错,但是远没有达到预期,因为在我的数据量下需要100ms,那么在真正的应用场景中,这个延迟肯定是不能接受的,所以还有优化的空间....联系邮箱：huyanshi2580@gmail.com 更多学习笔记见个人博客——>呼延十 var gitment = new Gitment({ id: 'Lucene初步学习及在博客系统中应用

8284 0

Elasticsearch控制相关度

在默认的 query-then-fetch 计算中，它是在本地针对每个 shard 来计算的。...概率相关模型官方文档相关度评分背后的理论解读如下： Lucene（或 Elasticsearch）使用布尔模型查找匹配文档，并用一个名为实用评分函数的公式来计算相关度。...BM25 源自概率相关模型（probabilistic relevance model），而不是向量空间模型，但这个算法也和 Lucene 的实用评分函数有很多共通之处。...image.png 字段长度归一化在字段长归一化中，我们提到过 Lucene 会认为较短字段比较长字段更重要：字段某个词的频度所带来的重要性会被这个字段长度抵消，但是实际的评分函数会将所有字段以同等方式对待...constant_score 在 constant_score 查询中，它可以包含查询或过滤，为任意一个匹配的文档指定评分 1 ，忽略 TF/IDF 信息。

2.2K1 1

ElasticSearch权威指南：深入搜索（下）

一个文档的相关度评分部分取决于每个查询词在文档中的权重。词的权重由三个因素决定，在什么是相关中已经有所介绍，有兴趣可以了解下面的公式，但并不要求记住。词频：词在文档中出现的频度是多少？...现在已经讲完评分计算的基本理论，我们可以继续了解 Lucene 是如何实现评分计算的。 2....Lucene 的实用评分函数中可以通过 t.getBoost() 获得。...BM25 源自概率相关模型（probabilistic relevance model），而不是向量空间模型，但这个算法也和 Lucene 的实用评分函数有很多共通之处。...字段长度归一化在字段长归一化中，我们提到过 Lucene 会认为较短字段比较长字段更重要：字段某个词的频度所带来的重要性会被这个字段长度抵消，但是实际的评分函数会将所有字段以同等方式对待。

2.7K2 2

Java 在PDF中添加表格

本文将介绍通过Java编程在PDF文档中添加表格的方法。添加表格时，可设置表格边框、单元格对齐方式、单元格背景色、单元格合并、插入图片、设置行高、列宽、字体、字号等。....*; public class AddTable { public static void main(String[]args){ //创建文档，添加PDF页面...data[i].split("[;]"); } //填充数据到表格 grid.setDataSource(dataSource); //在表格第...} //绘制表格到PDF grid.draw(page,0,30); //保存文档 pdf.saveToFile("添加表格

4.6K2 0

ES系列13：彻底掌握相关度：从TF-IDF、BM25到对相关度的控制

带着问题学习才高效 ES 5.0 之前，默认的相关性算分采用的是 TF-IDF，而之后则默认采用 BM25。 1、什么是相关性/相关度？Lucene 是如何计算相关度的？...概念理解：比如说我们检索关键字“es”，“es”在文档A中出现了10次，在文档B中只出现了1次。我们不会认为文档B与“es”的相关性更高，而是文档A。...最后将它们结合在一起计算单个词在特定文档中的权重。...2.4 Lucene 中的 TF-IDF 评分公式该公式参考自官网： score(q,d) = queryNorm(q) · coord(q,d)...4.4 更改BM25 参数 k1 和 b 的值在介绍BM25算法时，我们知道 k1 参数【默认值1.2】控制着词频结果在词频饱和度中的上升速度。

1.9K2 0

实战 | Elasticsearch自定义评分的N种方法

官方文档相关度评分背后的理论解读如下： Lucene（或 Elasticsearch）使用布尔模型查找匹配文档，并用一个名为实用评分函数的公式来计算相关度。...3.2 TF-IDF与BM25 的不同点 BM25在传统TF-IDF的基础上增加了几个可调节的参数，使得它在应用上更佳灵活和强大，具有较高的实用性。传统的TF值理论上是可以无限大的。...而BM25与之不同，它在TF计算方法中增加了一个常量k，用来限制TF值的增长极限。...它会影响文档是否包含在结果中，但不会影响文档的评分方式。在must_not里还可以显式指定任意过滤器，以基于结构化数据包括或排除文档。 filter：必须匹配，但它以不评分、过滤模式来进行。...这里说是自定义评分，核心还是通过修改评分修改文档相关性，在最前面返回用户最期望的结果。

6.3K3 1

Query阶段自定义文本相似度打分公式

Lucene实现为文档中terms的distincet count avgdl // 在当前索引(solr/es为当前shard)中, 文档该字段的平均dl bm25和tfidf在传统语料上经过大量测试并表现优异...因此, 我们会有想在不同业务场景自定义文本相似性得分的需求, 在Lucene中可以通过自定义Similarity的方式自定义文本相似性得分, 但是如果我们写死一个自定义公式, 会有下列问题: 每次想调整公式...我们通过添加一个参数, 支持在query阶段动态调整打分公式: // 使用tfidf { "match": { "TITLE": { "query": "...示例中我们通过自定义的方式自己实现了一个和bm25等效的公式. expression可以写任何公式, 在公式中可以直接引用下列预设变量, 在运行时会替换为实际值: idf boost tf dl avgdl...实际上是因为Similarity这个类, 在Lucene索引阶段也用到了, 因为Similarity打分时用到的dl, 实际是需要在索引阶段存到索引文件的, 而Lucene在实现的时候为了扩展性, 是允许用户通过

7940 0

在 Xcode 中添加 Swift package 依赖

如果开发人员正确遵循 SemVer，则他们应该：只要不破坏任何API或添加功能，就可以在修复错误时更改补丁号。当他们添加不会破坏任何API的功能时，请更改次版本号。更改API时更改主版本号。...要尝试，请打开 ContentView.swift 并将此导入添加到顶部： import SamplePackage 是的，外部依赖关系现在是一个模块，我们可以在需要的任何地方导入它。...在Swift中这只需要一行代码，因为序列具有map()方法，通过将函数应用于每个元素，我们可以将一种类型的数组转换为另一种类型的数组。...在我们的例子中，我们希望从每个整数初始化一个新的字符串，因此我们可以将String.init用作要调用的函数。...现在将此最后一行添加到属性中： return strings.joined(separator: ", ") 这就完成了我们的代码：文本视图将显示结果中的值，该结果将继续并选择随机数，对其进行排序，将它们进行字符串化

7K1 0

在vim 中批量添加注释

使用下面命令在指定的行首添加注释。使用名命令格式： :起始行号,结束行号s/^/注释符/g（注意冒号）。取消注释：使用名命令格式： :起始行号,结束行号s/^注释符//g（注意冒号）。...例子： 1、在 10 - 20 行添加 // 注释 :10,20s#^#//#g 2、在 10 - 20 行删除 // 注释 :10,20s#^//##g 3、在 10 - 20 行添加 # 注释 :10,20s.../^/#/g 4、在 10 - 20 行删除 # 注释 :10,20s/#//g

15.7K4 0

在AMD PetaLinux中添加命令pstree

在rootfs里查找pstree 首先使用命令“petalinux-config -c rootfs ”尝试在rootfs里查找pstree。没有找到pstree。...在psmisc里查找pstree 在Debian里，软件包psmisc包含pstree。...descriptor. pstree: shows currently running processes as a tree. prtstat: print the contents of /proc//stat 在PetaLinux...Check the proj/hankf/kv260/v221/k26-cms-peta-0118/build/config.log file for more details...``` 在busybox...busybox -rwsr-xr-x 1 root root 1.7M Mar 9 2018 /bin/busybox 于是使用命令“petalinux-config -c busybox”，尝试在busybox

2441 0

Python 在 Wiki 标记中添加无

split()方法得到一个字符串的列表，以回车符分隔 for i in range(len(lines)): lines[i] = '* ' + lines[i] #遍历 lines 中的每个表项...，在每个表项前加* text = '\n'.join(lines) #指定字符\n连接序列中元素后生成的新字符串 pyperclip.copy(text) #复制新的字符串

2.9K3 0

Java 在 PDF 中添加表单域

PDF表单域是指用户在PDF文件中可以自主进行填写、选择等操作的区域，其主要目的是采集用户输入或选择的数据。常见的表单域包括文本框、单选按钮、复选框、列表框和组合框等。...文本将介绍如何使用 Free Spire.PDF for Java在Java程序中创建PDF表单域。...Jar包导入方法一：下载Free Spire.PDF for Java包并解压缩，然后将lib文件夹下的Spire.Pdf.jar包作为依赖项导入到Java应用程序中方法二：直接通过Maven仓库安装...; //文本框前的文字 page.getCanvas().drawString(text, font, brush1, new Point2D.Float(0, baseY)); //在PDF...中绘制文字 Rectangle2D.Float tbxBounds = new Rectangle2D.Float(baseX, baseY , 150, 15); //创建Rectangle2D

3.9K3 0

在Systrace中添加 mutex lock owner

在多线程的debug中，如果线程相互deak lock是很头痛的事情。...下面的patch 可以把lock的owner 信息在ftrace 中记录，并且在systrace 中显示出来，可以加快对问题的debug 添加下面的patch 后 index 851fc3d..d75fe2a

2.4K1 0

在HTML中添加背景音乐

方法一：在源代码中编写以下几句代码将能实现在HTML网页内添加背景音乐；在页面加载的同时进行加载，并预备播放。 5、使用src=””，即是在””内加入背景音乐的保存路径，如：src=”web网页制作\03.mp3″。...head>中的title标签之下添加以下这行代码说明：1、src="",在""内添加你音乐的保存路径。...4、使用loop="true"表示循环播放如仅想播放一次则为：loop="false" 方法三：在HTML中敲写以下代码： <bgsound src="音乐保存的绝对路径" autostart

5.7K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

ElasticSearch实战指南必知必会：安装中文分词器、ES-Python使用、高级查询实现位置坐标搜索以及打分机制

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节

ElasticSearch实战指南必知必会：安装分词器、高级查询、打分机制

在Lucene或Solr中实现高亮的策略

机器学习在信用评分卡中的应用

机器学习在信用评分卡中的应用

Lucene初步学习及在博客系统中应用demo

Elasticsearch控制相关度

ElasticSearch权威指南：深入搜索（下）

Java 在PDF中添加表格

ES系列13：彻底掌握相关度：从TF-IDF、BM25到对相关度的控制

实战 | Elasticsearch自定义评分的N种方法

Query阶段自定义文本相似度打分公式

在 Xcode 中添加 Swift package 依赖

在vim 中批量添加注释

在AMD PetaLinux中添加命令pstree

Python 在 Wiki 标记中添加无

Java 在 PDF 中添加表单域

在Systrace中添加 mutex lock owner

在HTML中添加背景音乐

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐