使用cosine_similarity获取nltk k均值聚类的惯性_使用k均值聚类绘制奇怪的图形_使用k均值的orange3聚类 - 腾讯云开发者社区

python、nltk、k-means

我将nltk用于k均值聚类，因为我想更改距离度量。nltk k是否具有与sklearn相似的惯性？似乎在他们的文档或在线上找不到...下面的代码是人们通常如何使用sklearn k means找到惯性的。inertia.append(clusterer.inertia_) plt.plot([i for i in range(2,26,1)], inertia,

浏览 8提问于2020-01-01得票数 0

回答已采纳

1回答

如何将余弦距离矩阵用于均值移位、DBSCAN和光学等聚类算法？

clustering、k-means、dbscan、python-3.x、mean-shift

我试图比较不同的聚类算法对我的文本数据。首先计算了余弦距离矩阵(余弦相似度).然后用这个距离矩阵进行K均值和层次聚类(ward和树状图).我想用距离矩阵来表示平均位移、DBSCAN和光学.下面是显示距离矩阵的代码的一部分。vectorizer to synopses from sklearn.metrics.pairwis

浏览 0提问于2020-03-05得票数 2

1回答

如何使用nltk (python)获取K均值集群的各个质心

python、nltk、k-means

我使用nltk执行k均值聚类，因为我希望将距离度量更改为余弦距离。但是，如何获得所有集群的质心？kclusterer = KMeansClusterer(8, distance = nltk.cluster.util.cosine_distance, repeats = 1)df_clustering['c

浏览 23提问于2019-12-31得票数 0

回答已采纳

1回答

关于K均值聚类的轮廓数问题

clustering、scikit-learn

我使用了K均值聚类。为了找到K的最佳值，我观察了惯性值对K的变化，以及平均轮廓数对K的变化。惯性图似乎表明数据中有5个簇。然而，平均轮廓数在5达到最小。那么，如何解释这一点呢？

浏览 0提问于2016-04-15得票数 2

2回答

如何用余弦距离测度实现K-均值聚类算法？

python、cluster-analysis、k-means、cosine-similarity

我需要运行K-均值聚类算法来对文本数据进行聚类，但是使用余弦距离测度代替欧氏距离。在python中有可靠的实现吗？编辑：NUM_CLUSTERS=3 clstr =

浏览 1提问于2020-12-04得票数 0

1回答

数据簇数比较的统计检验

machine-learning、clustering、statistics、optimization、unsupervised-learning

我正在由K观测和d变量组成的数据集上执行-means集群，并试图确定集群的最佳数量。是否有一个测试可以确定添加另一个集群的统计意义？_{k+1}}{n-d(k+1)} \Big)} = \frac{ \Big( \frac{WCSS_k-WCSS_{k+1}}{d} \Big)}{ \Big( \frac{WCSS_{k+1}}{n-dk-1} \Big)} 其中WCSS_i是包含i簇的模型的群内平

浏览 0提问于2023-03-10得票数 0

1回答

如何判断两个网页内容是否相似？

python、nlp、machine-learning、text-mining、semantic-analysis

给定两个html源，我想首先使用之类的东西从中提取主要内容。有没有 --我特别想找Python/Javascript的？一旦我有了两个提取的内容，我想返回一个介于0和1之间的分数，表示它们有多相似，例如，来自CNN和BBC的关于同一主题的新闻文章会有更高的相似性分数，因为它们在相同的主题上，或者Amazon.com和Walmart.com上关于相同产品的网页也会有很高的分数。有没有现成<e

浏览 0提问于2012-04-06得票数 3

回答已采纳

1回答

文本处理

nlp、text、google

我对集群文本的分析是全新的，我正在使用Goodreads来获取图书概要。我的目标是对类似的书籍进行分组，例如：音乐虽然Goodread提供了体裁，但我想使用概要并使用文本。让我说，我将得到N本书的概要如下：<!basis of what it undoubtedly the grandest epic in science fiction.</des

浏览 0提问于2017-02-03得票数 1

回答已采纳

1回答

使用sklearn的余弦相似法和K均值算法对用户进行聚类是否正确？

python、nlp、data-science、k-means、cosine-similarity

我想根据他们的评论对相似的用户进行聚类，他们的想法是，将类似电影评为好的用户可能也会将同一组中没有被任何用户评为好的电影。我使用了k均值聚类的余弦相似性度量。user100 1 -1 1 0 我测量了余弦相似度，然后用sklearn的cosine_similarity<

浏览 1提问于2020-07-21得票数 0

1回答

高维稀疏数据矩阵的聚类

python、clustering、unsupervised-learning、sparse

我目前有一个1000个条目的数据集，其中512个特性是稀疏的。我想把他们聚在一起。我尝试使用kmeans，但发现集群不是很好，并且一直在研究其他集群，比如DBSCAN，即使在调优参数之后，DBSCAN也没有做得很好。我可能错过了一些步骤或维数约简步骤，在这些步骤中，我很高兴回到过去，看看它会有什么不同，但是有人能推荐任何聚类算法或者指导我可以进一步研究的任何地方吗？我将看一看凝聚的分层聚类。

浏览 0提问于2022-09-05得票数 1

1回答

pca和聚类分析，计算非常慢

r、cluster-analysis、pca、factoextra

我的数据有30,000行和140列，我正在尝试对数据进行聚类。我正在进行pca，然后使用大约12台pc进行聚类分析。我随机抽取了3000个观测数据，然后运行了44分钟，同时运行pca和层次结构聚类。一位同事在SPSS上也做了同样的工作，而且花费的时间也大大减少了？知道为什么吗？下面是我的代码的一个简化版本，它工作得很好，但是对于任何超过2000次的观测结果都很慢。我包括了USArrest数据集，它

浏览 4提问于2019-10-31得票数 0

回答已采纳

7回答

K-均值聚类能进行分类吗？

algorithm、cluster-analysis、data-mining、k-means

我想知道k均值聚类算法是否能做分类？假设我有很多数据，我使用k-均值聚类，然后得到2簇A，B，质心的计算方法是欧氏距离。B组在右侧。所以如果我有一个新的数据。我该怎么办？再次运行k-均值聚类

浏览 5提问于2014-03-10得票数 22

回答已采纳

3回答

比k均值聚类更精确的方法

machine-learning、neural-network、k-means、biological-neural-network

在径向基函数网络(RBF网络)中，选择了隐层中的所有原型( RBF函数的中心向量)。此步骤可以通过以下几种方式执行：智能选择原型的方法之一是在训练集上进行k均值聚类，并使用聚类中心作为原型。我们只知道k均值聚<em

浏览 7提问于2014-03-06得票数 1

回答已采纳

1回答

如何在android演播室的Chaqu皮中安装和使用Kmeans？

python、android、android-studio、k-means、chaquopy

我正在尝试使用K均值聚类从图像中获取RGB值。K的取值是基于自适应K值法确定的。

浏览 11提问于2022-11-14得票数 0

1回答

用弯曲线法计算K-均值聚类中的最优K值

python、machine-learning、scikit-learn、artificial-intelligence

我使用不同的k值执行K-means聚类，并获得每个k值的惯性(据我所知，惯性是所有集群的标准差之和) ks = range(1,30)for k in ks: inertias.append(km.inertia_)plt.plot

浏览 15提问于2020-08-28得票数 0

回答已采纳

2回答

R中的聚类时间序列-K均值是否准确？

r、time-series、cluster-analysis、distance-matrix、dtw

我的数据集是由105个国家(行)的14年(列)相同指数的测量结果组成的。我想根据这些国家随时间变化的指数趋势对其进行聚类。我正在尝试使用DTW距离矩阵(dtw包)的层次聚类(hclust)和K Medoids (pam)。我还尝试了K均值，使用DTW距离矩阵作为函数kmeans的第一个参数。该算法有效，但我不

浏览 7提问于2020-03-03得票数 0

1回答

O(logk)竞争复杂性的含义

algorithm、performance、k-means

现有的算法使用K-均值来执行聚类，而我选择使用K-均值++进行同样的聚类。选择K-均值++是因为与K-均值相比，K均值聚类结果更快、更准确.现在，在最后，我必须比较新算法和现有算法的复杂性，我发现我无法理解K-意思是++

浏览 2提问于2017-03-28得票数 3

回答已采纳

1回答

为什么我的文本聚类要这样做？

python、scikit-learn、cluster-analysis、k-means、tf-idf

我有一个未标记的数据集，其中包含产品名称。例如，棒球衫，轰炸机夹克，活跃的经典拳击手，等等。# cosine similarity between each document from sklearn.metrics.pairwise import cosine_similarityd

浏览 0提问于2016-10-01得票数 2

1回答

如何评估集群的混合数据准确性，如K-Prototype>

cluster-analysis、data-mining

有许多用于聚类的有效性指标，但仅适用于数值数据。如何对混合数据(数字和分类)进行聚类？

浏览 0提问于2018-01-14得票数 0

1回答

尝试创建集群时出现错误:没有为空集群定义质心

python、numpy、nltk、cluster-analysis

我正在尝试使用K均值对2个分布进行聚类，并使用余弦相似度作为定义相似度的度量。我写了下面的代码。import numpy as np import nltk as nltk X_train = X_train.reshape

浏览 0提问于2018-10-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云