在原理上的差异在于选择各类别中心点时不取类别均值点,而在类别内选取到其余类别距离之和最小的样本点为中心。
下图表示出算法的基本运行步骤:
?...", "MacQueen"), trace=FALSE)
其中x为进行聚类分析的数据集; centers为预设类别数k; iter.max为迭代的最大值,且默认值为10; nstart为选择随机起始中心点的次数...将聚类结果与类标号(Species)进行比较,查看相似的对象是否被划分到同一个簇中。
# 查看划分效果
table(iris$Species,kmeans.result$cluster)
?...其格式为: cutree(tree,k=NULL,h=NULL)函数rect.hclust()可以在plot()形成的系谱图中将指定类别中的样本分支用方框表示出来,十分有助于直观分析聚类结果。...3
总结
聚类模型通常是探索性的分析,对于数据没有标签时,我们需要了解数据的能够分为几类,分别是怎么样的,而K-MEANS算法需要我们指定类别数,在实际生活中,我们往往不知道类别数是多少,这时我们可以先用系谱聚类也就是层次聚类求出聚类数