我正在尝试在Lucene中实现一个与tf-idf无关的自定义评分公式(因此,例如,仅更改相似度将不起作用)。为此,我需要能够使用我的自定义查询并为索引中存储的每个文档生成分数,而不仅仅是那些与查询中的术语匹配的文档(因为我的分数涉及检查本质上是同义词的内容,所以即使文档没有确切的术语,它仍然可以生成肯定的分数简单地创建一个IndexReader并为所有文档调用Document d = reader.
对于我正在编写的C#程序,我需要比较两个实体(可以是文档、动物或几乎任何实体)中的相似性。基于某些属性,我计算文档(或实体)之间的相似度。我把它们的相似之处放在下面的表格中。X Y Z B|0.6 |0.4 |0.2 我想根据最高的相似度分数找到最佳匹配对(例如: AX,BY,CZ)。得分越高,相似度</em