kmeans的肘部方法

文章/答案/技术大牛

发布

2回答

python、machine-learning、cluster-analysis

我正在处理一个集群任务，我使用来获得最优的集群数量(k)，但我得到了一个线性图，并且我无法从该图中确定k。在此处输入图像描述谢谢

浏览 12提问于2021-03-09得票数 0

回答已采纳

2回答

不回肘法

python、pandas、scikit-learn、cluster-analysis

因此，遵循文档()中的示例： sse = {} for k in range(1,

浏览 0提问于2019-01-29得票数 3

2回答

主题建模的K-均值-弯曲法

python、machine-learning、scikit-learn、cluster-analysis、k-means

我知道这不是最好的方法，但这只是迈向更复杂模型的一步。令我困惑的是我得到的肘部曲线(下图)。你会如何解释它？为什么在50K附近有一个突然的峰值？或者在处理文本时，肘部方法并不能真正起作用？from sklearn.cluster import MiniBatchKMeans for k in range(5, 100, 5):

浏览 3提问于2018-05-01得票数 1

3回答

与肘部方法等价的Sklearn kmeans

python-3.x、scipy、scikit-learn

假设我正在检查多达10个集群，使用scipy我通常会生成“肘部”图，如下所示：cluster_array = [cluster.vq.kmeans([var for (cent,var) in cluster_array])从那以后，我开始使用sklearn进行集群，但我不确定如何像在scipy案例中那样创建绘制所需的数组我最好的猜测是： km = [

浏览 20提问于2017-01-09得票数 17

回答已采纳

4回答

实现弯管法的不同方式的比较

python、scikit-learn、cluster-analysis、k-means

我很困惑，因为我看到了不同的方法来实现肘部方法来识别Kmean中正确的聚类数量，并且它们产生的结果略有不同。一种方法在这里描述为，使用kmeans_inertia_，另一种方法在这里描述为，使用以下命令。我想知道Kmeans_inertia_是做什么的？两个实现都是正确的吗？

浏览 1提问于2018-05-25得票数 2

1回答

TypeError:在群集化过程中无法订阅“type”对象

python-3.x、jupyter-notebook

我正在为集群实现KMeans算法，我遇到了这个问题，它在jupyter平台上不起作用。我正在应用肘部方法来寻找最优的簇数。#Now find the optimal number of clusters using elbow methodwcss =[] kmeans = KMeans(n_clusters = i, init = 'k

浏览 3提问于2019-07-20得票数 1

3回答

Scikit学习-K-均值-弯头标准

python、machine-learning、scikit-learn、cluster-analysis、k-means

今天我想学习一些关于K-means的知识。我已经理解了算法，我知道它是如何工作的。现在我在寻找合适的k..。我发现肘部判据是一种检测正确k的方法，但我不明白如何在scikit学习中使用它？！在scikit learn中，我以这种方式对事物进行聚类kmeans.fit(data)

浏览 1提问于2013-10-05得票数 50

回答已采纳

1回答

K-均值不会导致弯头形状

python、machine-learning、k-means

我正在尝试在提供的数据集中使用k-means，只使用有关客户端的变量。问题是8个变量中有7个是分类的，所以我对它们使用了一个热编码器。为了使用肘部方法选择理想数量的集群，我对2到22个集群运行了KMeans，并绘制了inertia_值。但它的形状一点也不像肘部，它看起来更像一条直线。import numpy as np import matplotlib.pyplot as p

浏览 13提问于2019-11-04得票数 1

回答已采纳

1回答

如何对时间范围进行聚类？

python、pandas、scikit-learn

我有一个熊猫数据帧的时间。52:17 24 2020-08-01 18:38:06 3mat = df['datetime'].valueskmeans.fit(mat.iloc[:

浏览 0提问于2020-09-13得票数 0

2回答

如何使用fviz_nbclust打印最佳聚类数

r、cluster-analysis、k-means

我的代码是library(factoextra) data<-read.csv("..FALSE, sep=" ") k.max<- 22 wss <- sapply(2:k.max, function(k){kmeans19, xlab="Number of clusters K", ylab="Total within-clusters s

浏览 0提问于2016-11-27得票数 2

1回答

我目前正在进行一些基于单词嵌入的聚类，并且我正在使用一些方法(肘部和doing )来确定我应该考虑的最佳集群数。此外，我还考虑了轮廓度。如果我正确理解了它，它就是测量数据与正确集群的正确匹配，范围从-1(不匹配)到1(正确匹配)。使用kmeans聚类，我得到了一个轮廓在0.5到0.55之间波动的分数。因此，根据剪影，肘部法(这有点太平滑了，但可能因为我有很多数据)和David指数，我应该考虑5个簇。但是，我不知道0.5是否可以被认为是一个好分数？<e

浏览 3提问于2021-02-24得票数 0

1回答

dbscan对于少量的点没有意义

python、cluster-analysis、dbscan

在我的例子中，我有几个点(3-5)的集群在一起，集群之间有相当长的距离。我尝试在下面的代码中复制这种情况。我认为在低epsilon和低min_samples的情况下，这应该可以工作，但它告诉我它只看到1组(和20个噪声点？)。是我用错了，还是dbscan不适合这种类型的问题。我选择了dbscan而不是kmeans，因为我事先不知道会有多少簇(1-5)。

浏览 50提问于2021-08-13得票数 0

1回答

找到具有缩放和非缩放数据的最优聚类数的问题

python、performance、cluster-analysis、k-means、unsupervised-learning

我正在尝试在我的数据中进行聚类，但我在识别最佳聚类数量方面遇到了一些问题。问题是，当数据没有被缩放时，肘部方法和轮廓得分显示出明显的趋势，而是一个糟糕的聚类。另一方面，缩放数据显示了更好的集群，但它的图形具有“奇怪的”形状……第一个没有“

浏览 0提问于2020-07-30得票数 0

2回答

Python异常检测(Pyod)未收敛

python、anomaly-detection

请更改n_clusters或更改群集方法似乎CBLOF算法依赖于sklearn.cluster，从pyod传递给skelearn的预期数据类型并不是预期的数据类型。下面是我使用CBLOF的不同参数准备的四个场景。请注意，无论如何更改这些参数，都会抛出相同的错误。我还尝试使用肘部方法更改集群大小，以在Kmeans场景中找到最佳K。as a centroid estimatorkmeans</e

浏览 57提问于2019-05-07得票数 2

回答已采纳

1回答

使用聚类标签作为配色方案绘制Networkx有向图

networkx、draw、k-means、directed-graph

我有一个从数据帧创建的有向图，如下所示： source target weightip_1 ip_3 6 ip_4然后，在使用Node2Vec将节点转换为嵌入之后，我使用elbow+kmeans对该图进行了聚类： https://github.com/eliorc/node2vec 最后，我得到了以下结果数据帧：source target weight source_kmeans_label targ

浏览 19提问于2020-08-12得票数 0

回答已采纳

1回答

R kmeans* (统计数据) vs Kmeans (amap)*

r、k-means

你好，堆栈溢出社区，我不明白为什么在这些条件下，我得到了不同的wss曲线，特别是:使用stats包的“

浏览 2提问于2015-09-07得票数 6

回答已采纳

2回答

如何在python中使用scikit查找K-Means聚类的k值

python、arrays

我需要使用scikit中的K-Means聚类值，但我不知道如何为我的dataFrame找到正确的聚类数。有什么建议吗？此外，由于我是python的新手，而且这是我第一次使用sci-kit，任何关于如何执行K-Means聚类的简单解释都将不胜感激。

浏览 0提问于2020-06-25得票数 0

1回答

是膝盖还是肘部应该被考虑在图中来定义集群的数量？

r、cluster-analysis、k-means

我使用肘部法，剪影，并试图从数据中找出最优的k簇数。现在，在大多数软件包中，如果我考虑wss (在相似的分数范围内)或剪影，它会提供带有PAM、Kmeans、clara的3。通过休伯特分析，我得到了理想的2簇。唯一奇怪的是，下面的命令给了我一个情节，对我来说有点混乱。我应该把它看作是3组还是4组。如果有人能在这里给我一些反馈。所用代码 for (i in 2

浏览 4提问于2017-05-23得票数 1

回答已采纳

1回答

如何将集群标签列添加回原始dataframe- python，以进行监督学习

machine-learning、cluster-analysis、data-science、k-means、supervised-learning

我的数据框中有一列包含Url信息。它具有1200+的唯一值。我想使用文本挖掘从这些值中生成特征。我已经使用tfidfvectorizer生成向量，然后使用kmeans来识别集群。, kmeanModel.cluster_centers_, 'euclidean'), axis=1)) / X.shape\[0\]) km = KMeanscluster_labels = pd.DataFrame(cluster_labels, columns=

浏览 17提问于2019-03-28得票数 3

1回答

如何使用kmeans计算出tfidf矩阵中解释的方差？

python、scikit-learn、k-means、tf-idf

我是一个使用文本数据的新手。接下来，我在tf-idf矩阵上运行k均值，簇的数量从5到10。在尝试计算为D_k ValueError: setting an array element with a sequence.解释的方差时，我遇到了卡住错误我想绘制解释的方差与簇数的关系图

浏览 42提问于2016-08-03得票数 2

点击加载更多