我想知道解决这个问题的最有效的Python方法是什么。假设您有两个字符串(或拆分这些字符串的列表--无关紧要),"this is the right string“与"this is right the string”。我们假设第一个字符串总是正确的,并根据单词按正确的顺序排序,为第二个字符串分配一个分数。对于上面的两个字符串,我们会分配0.6的分数</
我想在Lucene的相似性公式中加入另一个分数因子。问题是我不能只覆盖相似度类,因为它不知道它正在计算分数的文档和术语。例如,在具有以下文本的文档中:
The cat is in the top of the tree, and he is going to stay there.我有一个自己的算法,它为文档中的每个术语分配一个分数,关于它们中的每个术语对整个文档
有没有办法识别一个词很可能是/不可能是一个人的名字?因此,如果我看到单词"understanding“,则概率为0.01,而单词"Johnson”返回概率为0.99,而像Smith这样的单词返回0.75,像Apple这样的单词返回0.15。这样做的目的是,如果有人搜索Charles Darwin galapagos,搜索引擎猜测它应该搜索Charles和Darwin的a