我正在做聚类工作,我有90个特征,有13500个数据点,去除了相关变量,其中皮尔逊相关性超过90%,我的特征空间减少到70个。而且,几乎所有我最初的90个特性都有大量的零值(超过70%-80%的数据点)。我在算法实现方面所做的是:
Ran K-通过根据轮廓指数选择聚类数来表示原始数据的70个特征(均为数字)。
Ran K-通过根据剪影索引选择簇数将维度降到2。
我所观察到的和我相应的问题是:
K-表示pca减少的数据提供了更好的聚类。有什么办法可以让我用这个集群来解释吗?就像从pca分配聚类标签一样,将数据减少到原始数据
原始数据上的K-均值和pca上的K-均值是如何不同的?我知道pca会将数