最好的文本相似度算法 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

基于相似度的文本流聚类算法最近有什么突破吗？

text、cluster-analysis、similarity

我需要有一个轻量级的文本流聚类工具。轻量级的意思是它没有内存，所以它可以记住之前的文本条目。文本流在这里指的是字母数字和半结构化句子/短语的连续输入，例如:任何应用程序的日志。基于相似度的聚类是指算法对具有模式相似度的文本进行分组聚类。例如: text1 = 'aaababac‘和text2

浏览 3提问于2012-06-22得票数 3

1回答

一种层次结构的相似度算法

java、android、algorithm

在Android术语中有一个屏幕层次结构(以文本形式)。任务是获取屏幕的“指纹”，以便稍后识别。结构可能变化不大，所以在百分比上获得相似度是很好的。容器/UI元素的种类有限(例如LinearLayout、RelativeLayout等)，因此顺序和层次结构很重要。有没有针对层次结构的相似度算法？或者我应该使用字符串相似度算法？

浏览 54提问于2019-06-24得票数 0

回答已采纳

1回答

我需要为产品主数据构建一个算法，我不确定最好的NLP方法。场景是：-我有产品黄金记录；-我有许多其他需要协调的产品目录；例如：-产品黄金记录:可口可乐和可口可乐零；-需要进行哈密化的产品描述:可口可乐300ml，可口可乐300毫升，可口可乐零。我需要一个通过相似度来协调的算法，因为我必须考虑打字错误，有时还需要考虑句子中的产品片段。示例: Coke zero JS MKT (JS和MKT是垃圾，但句子更类似于Coke

浏览 14提问于2019-07-31得票数 0

回答已采纳

1回答

基于用户阅读的文章的相似文章建议

python-2.7、machine-learning、recommendation-engine

我正在寻找最好的算法，用于我的项目中的文章建议。我们有1000篇文章。我想根据他正在阅读的文章向用户推荐类似的文章。哪种算法最适合这个。我尝试了基于内容的推荐，这涉及到训练模型。在我的例子中，它可以是基于用户正在阅读的文章的简单文本相似度，而不是用户阅读文章的历史记录

浏览 1提问于2017-09-12得票数 0

2回答

nltk.corpus.wordnet的哪个相似度函数适合于查找两个单词的相似度？

python、nlp、nltk、wordnet、corpus

nltk.corpus.wordnet中的哪个相似度函数适合于查找两个单词的相似度？ lch_similarity()?我想使用一个用于word clustering的函数和用于在大文本中查找相似collocation的yarowsky算法。

浏览 5提问于2011-09-13得票数 5

3回答

文本相似度算法

java、algorithm、text、similarity

我正在做一个Java项目，在这个项目中我必须制作一个文本相似性程序。我想让它取2个文本文档，然后将它们相互比较，得到它们的相似度。它们彼此有多么相似。稍后，我将放入一个已有数据库，该数据库可以找到单词的同义词，并查看文本文档编写者是否在文本完全相同的情况下将单词更改为其他同义词。上下移动伞也是一样的。是的，因为这是一个抄袭项目…… 我想听听你们会推荐什么样的<em

浏览 58提问于2011-04-27得票数 20

回答已采纳

5回答

文本相似度算法

java、text、nlp、levenshtein-distance、similarity

我需要一个函数来告诉它们是代表相同的文本，还是表示类似的文本。该函数应返回文本相似性的百分比-同意 “所有的人都很快乐”和

浏览 4提问于2010-02-24得票数 14

回答已采纳

1回答

从大型文本语料库构建图表

nlp、text-mining、similarity、graphs、similar-documents

我得到了大量的文件，我应该对这些文件进行各种分析。由于文档将作为最终产品的基础，所以我考虑用这个文本语料库构建一个图表，每个文档对应于一个节点。构建图形的一种方法是使用模型(如use )首先查找文本嵌入，然后在相似度超过给定阈值的两个节点(文本)之间形成一个链接。然而，我认为最好使用一种基于纯文本相似性度量的算法，即不将文本“转

浏览 0提问于2022-05-21得票数 1

回答已采纳

1回答

如何将文本和分类数据混合在一起的数据进行聚类？

clustering、text-mining、k-means、categorical-data

我有一组字符串，每个字符串都有与之相关的分类信息。但是，分类信息并不总是很好，所以我需要根据文本内容和类别对消息进行聚类。做这件事最好的方法是什么？

浏览 0提问于2015-05-18得票数 3

1回答

一组文本文档的相似性

data-mining、text-mining、sentence-similarity

我正在寻找一种算法，试图检查2)多个文档(约5000个)之间的相似度我需要相同的，因为我正在尝试评估特定类别下的文本文档/句子是否以任何方式彼此相似。

浏览 2提问于2017-05-16得票数 0

1回答

在两个数据集之间找到最佳匹配/得分

machine-learning

我正在寻找一个潜在的匹配算法应用于2个数据集( DS1，DS2)，这将为所有DS1 x DS2提供一个分数。任何指针或文档，你可以指示我来帮助我这个？

浏览 0提问于2021-03-17得票数 0

5回答

数据挖掘中的“相似性”

artificial-intelligence、data-mining、similarity

在数据挖掘领域，有没有一个特定的子学科叫做“相似度”？如果是，它处理的是什么。任何例子，链接，参考资料都会很有帮助。提前感谢您分享您的知识。

浏览 1提问于2010-05-22得票数 9

回答已采纳

2回答

用于检查两个文本之间相似度百分比的MySQL函数

mysql、similarity

我需要检查通过表格提交的文本与MySQL数据库中存储的一些文本之间的相似性百分比的MySQL代码。我正在寻找的MySQL存储过程，将像PHP的函数的工作。当用户提交文本时，算法应该返回数据库中与提交的文本具有给定相似度百分比的任何条目(它将只比较数据库中的一列)，例如返回数

浏览 41提问于2011-10-12得票数 7

1回答

聚类中的相似矩阵

data-mining、clustering、similarity

我正在编写一种聚类算法，这在这中得到了解释。根据本文提出的算法，该算法通过结构相似度和属性相似度进行聚类。该算法在第4页被描述为这里。

浏览 0提问于2016-12-08得票数 -4

3回答

是否有解释字符之间距离的文本距离(或字符串相似性)算法？

strings、text-processing、string-matching

我感兴趣的是找到一个文本距离(或字符串相似度)算法，当字符进一步分开时，该算法计算一个更大的距离(或更低的相似度)。像L

浏览 0提问于2022-09-22得票数 -1

2回答

如何从语义上比较文本

computer-science、semantics

假设你有一堆书的描述。有什么技术可以使这篇文章相互比较，这样我就可以对具有相似主题的书籍进行分组。

浏览 2提问于2012-09-26得票数 1

回答已采纳

2回答

查找两个字符串之间的匹配百分比，同时考虑到单词- Python的顺序。

python、algorithm、string-matching、sequencematcher

我正在寻找一种方法来输出两个字符串之间的匹配百分比(例如:名称)，同时也考虑到它们可能是相同的，但是单词的顺序不同。我注意到，它没有考虑到c包含与a相同的单词，但在中，包含不同的顺序。谢谢!

浏览 0提问于2018-10-31得票数 1

回答已采纳

2回答

Javascript文本相似度算法

javascript、algorithm、text、similarity

我正在建立一个网站，应该收集各种新闻提要，并希望文本比较的相似性。我需要的是某种新闻文本相似度算法。所以，如果有人能给我举一个例子，一个插件，或者任何说明这是如何可能的，或者至少在哪里寻找和开始调查。

浏览 7提问于2011-02-18得票数 11

2回答

比较差异很小的数据集之间的相似性的好方法是什么？

algorithm、statistics、similarity

假设我有一个100个MLB投手的列表，每个投手有5个统计数据。例如，对于一个朴素的相似性算法来说，3.5和3.1的ERA之间的差异可能看起来不是很大，但在棒球中却很大。考虑到我看到的许多玩家统计数据都有这个小方差，像这样的很多小方差，那么计算两个玩家之间相似度的最好方法是什么？---------------B | 3.

浏览 3提问于2012-01-17得票数 1

回答已采纳

3回答