首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >弹性搜索相似discount_overlaps

弹性搜索相似discount_overlaps
EN

Stack Overflow用户
提问于 2017-05-22 14:28:13
回答 1查看 395关注 0票数 3

我正在使用Elasticsearch 5.3.1,我正在评估BM25和经典TF/国防军。我偶然看到了discount_overlaps属性,它是可选的。

确定在计算范数时是否忽略重叠标记(具有0位置增量的标记)。默认情况下,这是正确的,这意味着重叠标记在计算规范时不算在内。

如果可能的话,有人能用一个例子来解释上面的意思吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-05-22 16:09:05

首先,将范数计算为boost / √length,并将该值存储在索引时间。这导致在较短的字段上进行匹配以获得更高的分数(因为十分之一通常比千分之一的匹配更好)。

举个例子,假设我们在分析器上有一个同义词过滤器,那就是在我们字段的索引形式中索引一堆同义词。然后我们索引这段文字:

那个人扔了一只飞盘

一旦分析器将所有同义词添加到字段中,如下所示:

现在,当我们搜索“那家伙投了一个光盘”,我们会得到一个匹配。

问题是,为了达到上述标准计算的目的,长度是多少?

  • 如果discount_overlaps = false,那么长度= 12
  • 如果discount_overlaps = true,则长度=5
票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44115497

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档