我是机器学习的新手,正在尝试用聚类算法进行分割。然而,由于我的数据集既有类别变量(如性别、婚姻状况、首选社交媒体平台等),也有数字变量(平均支出、年龄、收入等),我无法决定哪些算法值得关注。我应该尝试哪一个:模糊c均值,k-medoids,还是与k- means ++进行比较的潜在类?对于这些类型的混合数据集,哪些会产生更好的结果?
额外的问题:我应该尝试在没有降维的情况下进行聚类
我有一个维基百科的文章语料库。我确定了10,000个最常用的单词,找到了它们的Word2Vec向量,并在向量上使用球面k-means算法,根据词义的相似性将单词分成500组。我挑选了3个单词簇,并将这些单词转换回它们的词向量。每个单词向量都是一个由300个值组成的数组,所以我对所有值都应用了PCA (来自sklearn),以将它们转换为2D。下面是我的PCA代码:
for words in theList: #the
我已经对我的原始数据集执行了PCA分析,并且从由PCA转换的压缩数据集中,我还选择了我想要保留的PC数量(它们几乎解释了94%的方差)。现在我正在努力识别原始特征,这些特征在简化的数据集中很重要。在降维后,我如何找出哪些特征是重要的,哪些特征不在剩余的主成分中?下面是我的代码:
from sklearn.decomposition import PCA</