如何使用相似度矩阵和包含索引进行聚类？

文章/答案/技术大牛

发布

2回答

当在Scikit的光谱聚类中使用预先计算的亲和力矩阵时，KNN？

python、machine-learning、scikit-learn、cluster-analysis、unsupervised-learning

我有一个相似度矩阵，我计算了大量对象之间的相似度，每个对象可以与任何其他对象具有非零的相似度。我为另一个任务生成了这个矩阵，现在想对其进行聚类以进行新的分析。看起来方法可能是一个很好的选择，因为我可以传入一个预先计算的亲和度矩阵。我还知道，在构建亲和度矩阵时，谱聚类通常会<e

浏览 1提问于2016-10-20得票数 0

0回答

python、indexing、scikit-learn、dbscan、distance-matrix

我有一个像这样的熊猫数据帧，其中每个ID都是一个带有变量attr1、attr2和attr3的观察值： 202 3 21 3 1 3 并制作了一个我想使用的相似度矩阵，其中ID是基于成对属性差异的总和进行比较的。我尝试使用sklearn中的DBSCA

浏览 4提问于2017-06-09得票数 1

回答已采纳

1回答

如何根据相似度矩阵对大量字符串进行聚类？

python、cluster-analysis

我需要根据500K+字符串的相似性对其进行聚类。我已经计算了它们成对的Levenshtein距离，并制作了一个稀疏相似矩阵。此矩阵包含二进制相似性:较小距离的值设置为1.0，其他距离的值为0.0。我不知道什么样的集群对我有好处。我事先不知道聚类的数量，但它可能相当大，因为相似度矩阵非常稀疏(大约0.1%的值是非零的)。

浏览 38提问于2021-01-14得票数 0

回答已采纳

1回答

相似度矩阵的聚类技术

cluster-analysis、hierarchical-clustering、clustering-key

我在这些二进制数据上尝试了一些聚类算法，比如模糊聚类和层次聚类，但它没有给我任何好的结果，而且创建的聚类真的很糟糕。因此，现在我已经将骰子系数相似度矩阵应用于数据w.r.t响应者，这基本上给出了每个响应者与所有其他响应者的相似度得分。是否有可能在这个相似度矩阵上应用聚

浏览 5提问于2017-03-07得票数 0

3回答

基于距离矩阵的词聚类

python、cluster-computing、scikit-learn、hierarchical-clustering

我的目标是根据单词与文本文档语料库的相似度对单词进行聚类。我已经计算了每对单词之间的Jaccard相似度。换句话说，我有一个可用的稀疏距离矩阵。有没有人能给我介绍一些以距离矩阵作为输入的聚类算法(可能还有它的Python库)？我事先也不知道集群的数量。我只想对这些单词进行聚类，并获得哪些单词聚在一起。

浏览 0提问于2013-04-27得票数 24

1回答

在通过networkx生成的图上使用scikit学习进行谱聚类

cluster-analysis、scikit-learn、partitioning、networkx、spectral

我有一个3000x50特征向量矩阵。我使用sklearn.metrics.pairwise_distances获得了一个相似度矩阵，名为' similarity _ matrix‘。现在，我使用上一步生成的相似度矩阵G=nx.from_numpy_matrix(Similarity_Matrix)，使用networkx创建了一个图。我现在想在这个图G上执行光谱聚类，但几次

浏览 13提问于2014-05-16得票数 5

1回答

什么是光谱聚类？

clustering

什么是光谱聚类？我几乎没有统计学的背景。我试着在网上搜索笔记，但他们假设了很多知识。如果你能在网上找到一些关于光谱聚类的基础知识和数学基础的笔记，那就更好了。

浏览 0提问于2018-06-21得票数 4

1回答

相似度矩阵聚类

python、cluster-analysis、data-analysis

我尝试对文本数据进行聚类，数据清晰，标记化等。我如何在Kmeans或其他聚类模型中输入相似度矩阵？

浏览 3提问于2020-09-01得票数 0

1回答

聚类中的相似矩阵

data-mining、clustering、similarity

我正在编写一种聚类算法，这在这中得到了解释。根据本文提出的算法，该算法通过结构相似度和属性相似度进行聚类。在使用属性相似性进行聚类时，我有问题。我认为，首先用结构相似性聚类，然后在顶点之间用属性相似度划分聚类</

浏览 0提问于2016-12-08得票数 -4

1回答

当我使用余弦相似度时，为什么我得到的邓恩指数是负值？

matlab、cluster-analysis、distance、cosine-similarity

我使用k-means对归一化数据进行聚类。我使用了不同的相似度矩阵，如欧几里得、曼哈顿和余弦，当我使用余弦相似度时，Dunn指数为负值。我读到过邓恩指数的取值范围从0到无穷大。使用余弦相似度计算Dunn指数是正确的吗？我用过this implementation of Dunn Index。

浏览 94提问于2019-06-12得票数 1

回答已采纳

2回答

从相似矩阵执行聚类

python、clustering、k-means

我计算了每个向量之间的相似度分数，并将其存储在一个相似矩阵中。我想根据这个相似矩阵对歌曲进行聚类，以尝试识别集群或某种类型的歌曲。我使用networkx包从相似矩阵中创建了一个力有向图，使用了弹簧布局。然后，我将KMeans聚类用于该图中节点的位置，这就产生了有意义的集群。我也尝试在相似矩阵上

浏览 0提问于2021-04-15得票数 1

3回答

python中的单词聚类列表

python、nlp、cluster-analysis、text-mining

假设我有一个单词列表'car'，'dog'，'puppy'，'vehicle'，我想把单词聚成k组，我希望输出是['car'，'vehicle'，'dog'，'puppy']。我首先计算每个成对单词的相似度得分，得到一个4x4矩阵(在本例中) M，其中Mij是单词i和j的相似度得分。在将单词转换为数字数据后，我利

浏览 19提问于2017-01-31得票数 5

1回答

在mahout谱聚类中，亲和力矩阵中的对角元素值应该是多少

java、hadoop、mapreduce、data-mining、mahout

正如标题所述，下面是指向频谱聚类的链接附言:我有自己的方法来计算相似度分数，所以我不想<e

浏览 0提问于2014-09-06得票数 0

1回答

sklearn如何计算谱聚类的最近邻亲和度矩阵？

scikit-learn、nearest-neighbor

很简单，如果我将最近邻居的数量指定为k，那么对于每个节点，它都会找到最近的k个节点，并将亲和度指定为1。然而，我观察到由sklearn谱聚类最近邻生成的亲和力矩阵并不只包含0和1。

浏览 28提问于2017-07-14得票数 0

回答已采纳

1回答

基于亲合传播的聚类doc2vec

scikit-learn、clustering、word2vec、gensim、tsne

我希望使用关联传播对文档向量(doc2vec)进行聚类。使用余弦相似性来聚类我的doc2vec文档向量正确吗？此外，我希望使用to可视化我的集群结

浏览 0提问于2018-01-04得票数 1

1回答

scikit通过预计算学习谱聚类亲和力

python、scikit-learn、cluster-analysis

我有一个相似度矩阵，它考虑了80个用户中每两个用户之间的相似度。我想根据这个相似度矩阵对用户进行聚类。label = SpectralClustering(n_clusters=5 ,affinity='precomputed').fit_predict(lena) 这是调用相似度矩阵并获得标签的正确方法吗例如:如果我们有三个

浏览 5提问于2015-12-10得票数 0

1回答

如何将文本和分类数据混合在一起的数据进行聚类？

clustering、text-mining、k-means、categorical-data

但是，分类信息并不总是很好，所以我需要根据文本内容和类别对消息进行聚类。做这件事最好的方法是什么？

浏览 0提问于2015-05-18得票数 3

3回答

用Kmeans聚类词

python、nlp、nltk、k-means

如何使用Kmeans来聚类术语(1-2个单词)。我读了一篇研究论文，他们用K方法用Levenshtein距离来聚类相似的术语。请给我看一个示例代码。谢谢注:在研究论文中，他们使用Levenshtein距离计算了相似度矩阵，并将其用于聚类。

浏览 1提问于2019-06-15得票数 0

回答已采纳

1回答

如何使用K-medoid算法根据不确定数据的概率分布相似性对其进行聚类？

cluster-analysis

什么是不确定数据聚类?如何根据不确定数据的概率分布相似度对其进行聚类?如何根据不确定数据的概率分布相似度使用K-medoid算法对不确定数据进行聚类？

浏览 0提问于2013-09-27得票数 0

1回答

文档间nn相似度的doc2vec聚类*

cluster-analysis、gensim、doc2vec

我有一组使用gensim doc2vec生成的文档向量(大约500K个150维的向量)。我希望对想要生成n*n相似度矩阵的相似文档进行聚类，我可以在该矩阵上运行我的聚类算法。我使用gensim.similarities尝试了这个链接的指令，但是500k记录的输出是500k*150矩阵。我不明白输出结果。它不应该是500k * 500k吗？我是不是遗漏了什么？

浏览 0提问于2017-11-08得票数 1

点击加载更多

当在Scikit的光谱聚类中使用预先计算的亲和力矩阵时，KNN？