我正在使用Elasticsearch 5.3.1,我正在评估BM25和经典TF/国防军。我偶然看到了discount_overlaps
属性,它是可选的。
确定在计算范数时是否忽略重叠标记(具有0位置增量的标记)。默认情况下,这是正确的,这意味着重叠标记在计算规范时不算在内。
如果可能的话,有人能用一个例子来解释上面的意思吗?
发布于 2017-05-22 16:09:05
首先,将范数计算为boost / √length
,并将该值存储在索引时间。这导致在较短的字段上进行匹配以获得更高的分数(因为十分之一通常比千分之一的匹配更好)。
举个例子,假设我们在分析器上有一个同义词过滤器,那就是在我们字段的索引形式中索引一堆同义词。然后我们索引这段文字:
那个人扔了一只飞盘
一旦分析器将所有同义词添加到字段中,如下所示:
现在,当我们搜索“那家伙投了一个光盘”,我们会得到一个匹配。
问题是,为了达到上述标准计算的目的,长度是多少?
https://stackoverflow.com/questions/44115497
复制相似问题