我的问题是,使用k-means很难获得最优聚类数,所以我想到了使用分层算法来寻找最优聚类数。在定义了我的理想分类后,我想使用这个分类来找到具有k均值的质心,而不需要迭代。
data= rand(300,5);
D = pdist(data);
Z = linkage(D,'ward');
T = cluster(Z,'maxclust',6);
现在我想使用向量T中定义的聚类和to k-means算法中的位置,而不需要迭代。有没有人能给点建议怎么做?
谢谢。
我正在做聚类工作,我有90个特征,有13500个数据点,去除了相关变量,其中皮尔逊相关性超过90%,我的特征空间减少到70个。而且,几乎所有我最初的90个特性都有大量的零值(超过70%-80%的数据点)。我在算法实现方面所做的是:
Ran K-通过根据轮廓指数选择聚类数来表示原始数据的70个特征(均为数字)。
Ran K-通过根据剪影索引选择簇数将维度降到2。
我所观察到的和我相应的问题是:
K-表示pca减少的数据提供了更好的聚类。有什么办法可以让我用这个集群来解释吗?就像从pca分配聚类标签一样,将数据减少到原始数据
原始数据上的K-均值和pca上的K-均值是如何不同的?我知道pca会将数