我知道这不是最好的方法,但这只是迈向更复杂模型的一步。令我困惑的是我得到的肘部曲线(下图)。你会如何解释它?为什么在50K附近有一个突然的峰值?或者在处理文本时,肘部方法并不能真正起作用?from sklearn.cluster import MiniBatchKMeans
for k in range(5, 100, 5):
假设我正在检查多达10个集群,使用scipy我通常会生成“肘部”图,如下所示:cluster_array = [cluster.vq.kmeans([var for (cent,var) in cluster_array])从那以后,我开始使用sklearn进行集群,但我不确定如何像在scipy案例中那样创建绘制所需的数组我最好的猜测是:
km = [
我正在为集群实现KMeans算法,我遇到了这个问题,它在jupyter平台上不起作用。我正在应用肘部方法来寻找最优的簇数。#Now find the optimal number of clusters using elbow methodwcss =[] kmeans = KMeans(n_clusters = i, init = 'k
我正在尝试在提供的数据集中使用k-means,只使用有关客户端的变量。问题是8个变量中有7个是分类的,所以我对它们使用了一个热编码器。为了使用肘部方法选择理想数量的集群,我对2到22个集群运行了KMeans,并绘制了inertia_值。但它的形状一点也不像肘部,它看起来更像一条直线。import numpy as np
import matplotlib.pyplot as p
我使用肘部法,剪影,并试图从数据中找出最优的k簇数。现在,在大多数软件包中,如果我考虑wss (在相似的分数范围内)或剪影,它会提供带有PAM、Kmeans、clara的3。通过休伯特分析,我得到了理想的2簇。唯一奇怪的是,下面的命令给了我一个情节,对我来说有点混乱。我应该把它看作是3组还是4组。如果有人能在这里给我一些反馈。所用代码 for (i in 2