使用Python,我需要得分的存在一个引语,包含约2-7字,一个较长的文本。引文不必精确匹配,但类似的单词应该有相同的顺序。
例如,考虑到以下长文本:
世界上最美丽的事物是看不见或摸不到的,它们是用心去感受的。
下列引文应得分较高(例如,80 /100以上):
世界上美好的事物,他们无法用心去感受
因为他们不精确,但他们维护秩序。
另一方面,这些引文的得分应较低(例如,低于50 / 100):
美丽的心是世界上最看不见的,这些词甚至没有出现在这篇课文上
因为(前2)完全出现在文本中,但不保留顺序。
这一任务不能通过简单地检查文本中每个单词的存在来完成。我不知道哪种算法最适合这个任务。
fuzzywuzzy
中的大部分函数(partial_token_sort_ratio
、token_sort_ratio
等)得分较高。partial_ratio
确实在早先的条款中得分更高,但是报价
这些词甚至没有出现在这篇课文上
得到52 / 100,这是不合理的高。
如上文所述,我如何使用python在较长的文本中计算短引号的存在?
https://datascience.stackexchange.com/questions/29938
复制相似问题