TF-IDF和余弦相似度模糊匹配不够精确_TF-IDF和余弦相似度的替代方法(比较不同格式的文档) - 腾讯云开发者社区

、、、、

我想在一长串字符串中找到相似之处。也就是说，对于列表中的每个字符串，我需要同一列表中的所有相似字符串。后来，我尝试了tf-idf和余弦相似度，使用受此blog启发的string-grouper库，它提供了一些奇妙的时间改进。仔细研究结果，字符串分组方法错过了像“DARTH VADER”和“VADER”这样的匹配，而这些匹配被fuzzywuzzy和rapidfuzz捕获。这是可以理解的，因为T

浏览 74提问于2020-11-11得票数 1

1回答

如何计算TF-IDF

、

我想使用TF-IDF的余弦相似度方法来得到两个单词的语义相似度。首先，我想从wikipedia或word- text中提取这些单词的含义，然后对文本进行预处理并找到TF-IDF。当我在谷歌上搜索这个问题时，我发现为了找到TF-IDF，我们应该有一个训练集和测试集。在我的例子中，哪个是训练集，哪个是测试集？如何使用计算结果计算余弦相似度？

浏览 3提问于2012-10-06得票数 1

回答已采纳

1回答

如何计算多类型数据的余弦相似度？

、、

我有一个使用余弦相似度的约束。如果变量(属性、列)的类型不同，并以以下形式出现：如何进行矢量化以应用余弦相似度？对于字符串，我可以使用简单的tf-idf。但是对于数字和布尔值呢？如何将这些结合起来呢？我的想法是向量应该是1+1+1+20长度。但是，仅仅将记录的数字转换为矢量中的系数，并将它们与字符串的tf-idf连接以计算余弦</em

浏览 5提问于2013-03-20得票数 1

2回答

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

、、、

我正在处理文本数据，目前我已经将我的数据放入术语文档矩阵中，并计算出TF，术语频率和TF-IDF，术语频率与文档频率相反。从这里看，我的矩阵如下所示：行名=单词填充了他们的TF和TF-IDF分数。我不清楚我是否有像TF和TF-IDF中那样的词嵌入。我希望使用Word2Vec/Doc2Vec，并获得一个类似于我目前拥有的矩阵，然后计算文档之间的余弦相似度。这是模型的输出之一吗？我基本上有大约6000个文档，我

浏览 3提问于2019-07-11得票数 0

2回答

Lucene相似类的高级解释？

、、、

我想理解它，而不必破译搜索和索引所涉及的所有数学和术语。

浏览 0提问于2009-03-17得票数 7

回答已采纳

2回答

在K-Means聚类中使用词干提取

、、

这是我所做的：我应该在哪里使用词干部分？我是不是应该先计算词干，然后计算词干的tf-idf？使用词干提取不会降低结果吗？

浏览 2提问于2013-07-18得票数 1

1回答

tf-idf向量空间中的ntc形式到底是什么？

、、

我被要求在tf-idf向量空间和ntc形式中显示每个文档，然后在python中训练一个基于文档向量的svm模型。ntc在这里到底是什么意思？我发现它与tf-idf权重相同，只需一步归一化即所谓的“余弦归一化”。但是我找不到关于这件事的信息。我发现“余弦相似度”与“余弦归一化”不同。它们是一样的吗？我如何在python中创建这个向量呢？

浏览 2提问于2021-01-07得票数 0

1回答

java -如何利用文档的tfidf分数实现余弦相似度？*

、、、

我已经计算了关键字和所有文档的tf-IDF值。假设我将所有文档的tf-IDF值存储在一个数组中，如何使用它来计算余弦相似度？感谢您对代码的任何帮助！

浏览 1提问于2012-04-23得票数 0

回答已采纳

1回答

Lucene中查询和文档的余弦相似度

、、、

我想要获得一个长查询和一个集合中的文档之间的余弦相似度。我使用Lucence为集合建立索引，并提交查询以检索文档。有人能证实这一点吗？

浏览 0提问于2011-08-29得票数 1

回答已采纳

1回答

用于多文本文档的mllib和pyspark词袋模型

、、、、

我有150个文本文档(训练集)，我想用pyspark和mllib包"feature“对它们进行”词袋“表示。然后，我有另外150个文本文档(测试集)，我还想将每个文档转换为一个词袋，目的是将此测试集的每个元素映射到具有最高余弦相似度的训练集文档。为了做到这一点，我将为权重实现TF-IDF :这需要中每个文档的词频和我想要匹配的组合训练集。text file, split into words and (attempt) to make hash table docume

浏览 2提问于2015-08-11得票数 1

5回答

N-Gram、tf-idf和Cosine相似度在Python中的简单实现

、、、、

我需要比较存储在DB中的文档，并得出0到1之间的相似度分数。我需要使用的方法必须非常简单。实现n-gram的普通版本(其中可以定义使用多少个gram)，以及tf-idf和余弦相似度的简单实现。

浏览 3提问于2010-03-04得票数 55

回答已采纳

1回答

两个语料的Tf-Idf计算

、、、

我有两个语料库(语料库1和语料库2)，语料库1中的文档包含从语料库2中抄袭的句子。我正在使用Tf-Idf方法来衡量语料库1中的文档与语料库2中的文档之间的相似度。已经为语料库2中的术语建立了倒排索引，如下所示：简而言之，对于每两个句子的比较，我建立了两个Tf-Idf向量，然后使用余弦相似度来度量相似度。由于语料库1中的一些术语在语料库2中不可用，Tf-idf函数将为这些术语返回0！或者我必须

浏览 10提问于2017-01-16得票数 0

回答已采纳

1回答

基于关键字数量的文档与其他文档相关的概率

、

我有2个文档X和Y。如果用户搜索单词"Computer“，并且我想显示基于关键字"Computer”的最相关的文档。我的算法根据关键词在文档中出现的次数来选择最相关的文档。

浏览 8提问于2016-01-09得票数 0

1回答

如何在文本域的弹性搜索查询中进行基于余弦相似度的语义搜索？

、、、、

我正在一个文本字段(技能)上进行匹配。我不想要精确的匹配，相反，我想要基于领域的余弦相似性搜索。Designation" }, } }} 上面的查询是完全匹配的如何包含某种语义搜索(基于技能字段的查询中的余弦相似度)。技能字段是一个自由的文本字段，所以我也希望

浏览 3提问于2022-10-06得票数 0

1回答

用词向量表示句子的余弦相似度现在可以衡量词序吗？

、

我知道，原始的余弦相似度，当应用于通过特定单词的频率来表示两个文档时，并不衡量词序。我现在看到一大堆论文将余弦相似度应用于由单词向量组成的句子对的表示。因此，“我爱你”和“你爱我”(归一化为"I")在这种应用余弦相似性的新方法中不会产生1，而旧方法会产生1。我说的对吗?谢谢你的任何启发性的回答。

浏览 2提问于2016-06-21得票数 1

1回答

如何在Lucene中实现tf-idf和余弦相似度？

、、、

如何在Lucene中实现tf-idf和余弦相似度？我使用的是Lucene 4.2。我创建的程序没有使用tf-idf和余弦相似度，它只使用TopScoreDocCollector。t" + d.get("TEXT_INDO") + "\t" + d.get("TEXT_ARAB")); reader.close();

浏览 0提问于2013-04-25得票数 4

回答已采纳

1回答

通过余弦相似度Python制定查询和答案排名

、、

我标记了多个文本文件，并从中创建了一个tf-idf矩阵：Doc 1 0.00.. 0.0002 0.0003那么我如何使用余弦相似度对它们进行排名呢？

浏览 1提问于2016-08-11得票数 0

5回答

使用k-means进行文档聚类，聚类应该基于余弦相似度还是基于术语向量？

、、、、

我正在写一篇硕士论文，在这篇论文中，我提出了一种新的TF-IDF术语权重方法，专门针对我的领域。归一化为固定长度的向量第7步:向量空间模型-余弦相似度我正在努力理解k-means的输入向量是否应该包含集合中每个文档相对于其他文档的<e

浏览 4提问于2015-05-11得票数 5

1回答

使用python中的余弦相似度返回与查询文档相比最相似的文档

、、、、

我有一组文件和一个查询doc.My，目的是通过与查询文档进行比较来返回最相似的文档，对于每个document.To使用余弦相似度，首先我要将文档字符串映射到vectors.Also，我已经创建了一个tf-idfoffset+=1 return vectorIndex,vocabularylist #(keyword:position),vocabularylist 对于余弦相似度vecto

浏览 1提问于2012-02-28得票数 4

2回答

比较文档-文档相似度

、、、、

使用TF-IDF，为查询(给定文档)和集合中的所有其他文档计算tf-idf，然后将这些值作为具有余弦相似度的向量进行比较。这能让我们对它们的相似性有一些了解吗？或者，由于大查询(文档)，这是否不合理？有没有其他相似性度量可以更好地发挥作用？谢谢你的帮助

浏览 2提问于2015-04-24得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云