首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用Python检测剽窃

用Python检测剽窃
EN

Data Science用户
提问于 2018-04-05 14:14:12
回答 1查看 4.8K关注 0票数 4

背景

使用Python,我需要得分的存在一个引语,包含约2-7字,一个较长的文本。引文不必精确匹配,但类似的单词应该有相同的顺序。

例如,考虑到以下长文本:

世界上最美丽的事物是看不见或摸不到的,它们是用心去感受的。

下列引文应得分较高(例如,80 /100以上):

世界上美好的事物,他们无法用心去感受

因为他们不精确,但他们维护秩序。

另一方面,这些引文的得分应较低(例如,低于50 / 100):

美丽的心是世界上最看不见的,这些词甚至没有出现在这篇课文上

因为(前2)完全出现在文本中,但不保留顺序。

问题

这一任务不能通过简单地检查文本中每个单词的存在来完成。我不知道哪种算法最适合这个任务。

我已经尝试过的

fuzzywuzzy中的大部分函数(partial_token_sort_ratiotoken_sort_ratio等)得分较高。partial_ratio确实在早先的条款中得分更高,但是报价

这些词甚至没有出现在这篇课文上

得到52 / 100,这是不合理的高。

我的问题

如上文所述,我如何使用python在较长的文本中计算短引号的存在?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-07-27 18:38:21

Python的乌兹使用Levenshtein距离,它查看字符级别的差异。

你必须探索文本相似性的其他方法。找到非线性加权n克差的算法,如Q-克

相似性回购有许多文本相似性算法的实现。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/29938

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档