从字典中创建一个矩阵，用于计算文档之间的相似度_从由i，j标记的字典中的内容创建一个数值矩阵 - 腾讯云开发者社区

matrix、nlp、similarity、tf-idf、word-embedding

我的问题是：我有一个这样的数据帧： id tfidf_weights 2 {word4列'id‘表示文档的id，'tfidf_weights’表示每个文档的每个单词的tfidf权重。从这个数据帧中，我可以获得一个结构如下的字典： mydict =

浏览 19提问于2019-07-03得票数 0

回答已采纳

2回答

Gensim - LDA创建文档-主题矩阵

python、lda、gensim、topic-modeling

我正在处理一个项目，其中我需要将主题建模应用于一组文档，并且我需要创建一个矩阵：我刚接触gensim，到目前为止，我已经创建了一个文档列表。2.对文档进

浏览 0提问于2016-03-24得票数 0

1回答

使用Gensim更新TF-IDF

python、gensim、similarity、tf-idf

您好，我正在使用Gensim来查找文档之间的相似度，因此我对文档进行TF-IDF并计算余弦相似度。当我有新文档时，我可以使用index[tfidfvec]计算这个文档与以前文档的相似度，但是这样TF-IDF不会更新，并且在相似度计算中不考虑

浏览 2提问于2018-12-26得票数 2

1回答

为什么用gensim计算相似度需要字典的大小？

python、nlp、gensim

为了使用gensim.similarities.docsim.Similarity类计算单词之间的相似度，需要提供语料库和字典的大小。在我的例子中，语料库是使用word2vec模型计算的词向量。我想知道为什么gensim需要这么大的字典？另外，如果这里需要用于创建word2vec模型的字典<

浏览 0提问于2020-06-23得票数 0

1回答

给出新文档的相似矩阵再计算

python、scikit-learn、cosine-similarity、tfidfvectorizer

我正在运行一个包括文本文档的实验，我需要这些文档来计算它们之间的(余弦)相似度矩阵(用于另一次计算)。vect.fit_transform(corpus)pairwise_similarity_matrix = similarities.A 问题是，在每次实验的迭代中，我都会发现需要

浏览 3提问于2020-10-20得票数 0

回答已采纳

1回答

data.frame中字符串行之间的相似性

我有一个这样的数据帧： pta_content的每一行都是优惠贸易协定的内容。我试图计算每一行之间的相似度，并获得一个名称为pta的相似度矩阵。我尝试过stringdist，似乎stringdist用于两个数据帧。如何计算数据帧中每一行之间的成对相似

浏览 1提问于2018-03-29得票数 0

2回答

如何使用LSA计算句子之间的相似度？

lsa

我已经理解了当计算单词之间的相似度时LSA是如何工作的。我正在使用lsa.colorado.edu网站上的LSA，但我找不到一个来源，即句子或多个单词之间的相似度是如何计算的。这仅仅是通过平均所有成对的相似性来完成的吗？

浏览 1提问于2012-12-17得票数 1

2回答

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

python、gensim、word2vec、doc2vec

我正在处理文本数据，目前我已经将我的数据放入术语文档矩阵中，并计算出TF，术语频率和TF-IDF，术语频率与文档频率相反。从这里看，我的矩阵如下所示：行名=单词填充了他们的TF和TF-IDF分数。在我目前的大部分分析中，我一直在使用R中的tm包，但为了更进一步，我已经开始使用Python语言中的gensim库。

浏览 3提问于2019-07-11得票数 0

1回答

在mahout谱聚类中，亲和力矩阵中的对角元素值应该是多少

java、hadoop、mapreduce、data-mining、mahout

正如标题所述，下面是指向频谱聚类的链接它的第一步是提取数据点的相似度矩阵。当提到相似度矩阵时，我假设相同实体(用户、文档等)之间的相似度应该是1(与距离矩阵相反，距离矩阵的相似度是0)。但在他们的示例中，他们为相同<em

浏览 0提问于2014-09-06得票数 0

2回答

在对段落/doc2vec向量进行聚类时，合适的距离度量是什么？

python、cluster-analysis、distance、doc2vec、hdbscan

我的目的是使用HDBSCAN对来自doc2vec的文档向量进行聚类。我想找到有语义和文本重复的小集群。但是，要对文档进行聚类，HDBSCAN需要

浏览 0提问于2018-10-09得票数 4

回答已采纳

2回答

在numpy python中从稀疏矩阵生成密集矩阵

python、arrays、numpy、scipy、sparse-matrix

我有一个Sqlite数据库，其中包含以下类型的模式：此表包含文档中的术语及其各自的计数。(docn,term1 , 10) 这个矩阵可以被认为是稀疏矩阵，因为每个文档包含的项非常少，它们将具有非零值。我如何使用numpy从这个稀疏矩阵创建一个密集矩阵，因为我必须使用余弦相

浏览 1提问于2013-05-12得票数 49

回答已采纳

1回答

在scikit-learn中使用相似矩阵代替相异矩阵进行MDS

python、numpy、matrix、scikit-learn、multi-dimensional-scaling

我想要可视化文本文档的相似性，我正在使用scikit learn的TfidfVectorizer作为tfidf = TfidfVectorizer(decode_error='ignore', max_df=3).fit_transform(data)这给出了相似性，但sklearn.manifold.MDS需要

浏览 6提问于2014-12-07得票数 2

2回答

如何从Gensim TFIDF值执行kmean聚类

numpy、k-means、gensim、tf-idf、corpus

在从Gensim创建字典和语料库之后，我使用以下行计算了(词汇频率*反向文档频率)TFIDFcorpus_tfidf = Term_IDF[corpus] tfidfmtx.append(tfidf) 现在我想使用k-means聚类，所以我想执行tfidf矩

浏览 0提问于2018-06-20得票数 5

2回答

熊猫框架柱组合间距的有效计算方法

python、performance、pandas、numpy、nlp

我需要计算一个新的doc1-doc相似度矩阵，其中：循环这些，并创建<e

浏览 12提问于2016-11-16得票数 6

回答已采纳

1回答

lucene是如何构建VSM的？

lucene、indexing、data-mining、similarity、tf-idf

我理解了VSM，TFIDF和余弦相似的概念，但是，在阅读lucene网站之后，我仍然对lucene如何构建VSM和计算每个查询的相似度感到困惑。据我所知，VSM是一个矩阵，每个术语的TFIDF值都被填充。当我尝试从一组文档构建VSM时，使用这个工具花了很长时间--这实际上与编码无关，因为直观地构建一个包含大量数据的VSM矩阵很费时，但对于lucene来说似乎并非如此。另外，使用预先

浏览 7提问于2014-02-14得票数 1

回答已采纳

1回答

基于Okapi模式的文档相似度计算

java、lucene、similarity

我从这里的和本文的中发现Okapi相似性度量可以用于计算文档相似度例如，我有10个文档(文档#A、#B、#C、#D等)在我的

浏览 2提问于2012-06-13得票数 1

回答已采纳

3回答

如何用已经计算出的TFIDF分数计算余弦相似度

python、numpy、scikit-learn、nlp、data-mining

我需要计算已经计算出TFIDF分数的文档之间的余弦相似度。2

浏览 2提问于2018-05-16得票数 0

2回答

当在Scikit的光谱聚类中使用预先计算的亲和力矩阵时，KNN？

python、machine-learning、scikit-learn、cluster-analysis、unsupervised-learning

我有一个相似度矩阵，我计算了大量对象之间的相似度，每个对象可以与任何其他对象具有非零的相似度。我为另一个任务生成了这个矩阵，现在想对其进行聚类以进行新的分析。看起来方法可能是一个很好的选择，因为我可以传入一个预先计算的亲和度</em

浏览 1提问于2016-10-20得票数 0

2回答

从相似矩阵执行聚类

python、clustering、k-means

我有一个歌曲列表，我为每个歌曲提取了一个特征向量。我计算了每个向量之间的相似度分数，并将其存储在一个相似矩阵中。我想根据这个相似矩阵对歌曲进行聚类，以尝试识别集群或某种类型的歌曲。我使用networkx包从相似矩阵中创建了一个力有向图，使用

浏览 0提问于2021-04-15得票数 1

1回答

NLP -如何在问题列表上获得常见问题的列表

python、machine-learning、deep-learning、nlp、data-science

所有问题都在标题中，所以基本上我有一个列有几个问题作为字符串的列表，想法是在第一个问题列表中获得另一个常见问题列表。我不知道这是否有意义，但我会尝试解释一下我尝试过的方法。该方法包括计算列表中的每个元素与其他元素的余弦相似性，但不包括正在处理的元素，以防止使用相同的元素执行计算。也就是说，将创建一个字

浏览 2提问于2022-06-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云