文章/答案/技术大牛

发布

社区首页 >问答首页 >用Python检测剽窃

问用Python检测剽窃
EN

Data Science用户

提问于 2018-04-05 14:14:12

回答 1查看 4.8K关注 0票数 4

背景

使用Python，我需要得分的存在一个引语，包含约2-7字，一个较长的文本。引文不必精确匹配，但类似的单词应该有相同的顺序。

例如，考虑到以下长文本：

世界上最美丽的事物是看不见或摸不到的，它们是用心去感受的。

下列引文应得分较高(例如，80 /100以上)：

世界上美好的事物，他们无法用心去感受

因为他们不精确，但他们维护秩序。

另一方面，这些引文的得分应较低(例如，低于50 / 100)：

美丽的心是世界上最看不见的，这些词甚至没有出现在这篇课文上

因为(前2)完全出现在文本中，但不保留顺序。

问题

这一任务不能通过简单地检查文本中每个单词的存在来完成。我不知道哪种算法最适合这个任务。

我已经尝试过的

fuzzywuzzy中的大部分函数(partial_token_sort_ratio、token_sort_ratio等)得分较高。partial_ratio确实在早先的条款中得分更高，但是报价

这些词甚至没有出现在这篇课文上

得到52 / 100，这是不合理的高。

我的问题

如上文所述，我如何使用python在较长的文本中计算短引号的存在？

python

nlp

fuzzy-logic

回答 1

Data Science用户

回答已采纳

发布于 2018-07-27 18:38:21

Python的乌兹使用Levenshtein距离，它查看字符级别的差异。

你必须探索文本相似性的其他方法。找到非线性加权n克差的算法，如Q-克。

相似性回购有许多文本相似性算法的实现。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/29938

复制

相似问题

问用Python检测剽窃
EN

背景

问题

我已经尝试过的

我的问题

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Python检测剽窃EN

背景

问题

我已经尝试过的

我的问题

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Python检测剽窃
EN