最近在看Peter Harrington写的“机器学习实战”,这是我的学习心得,这次是第10章 - 利用K-均值聚类算法对未标注数据分组。
创建k个点作为起始质心(经常是随机选择)
当任意一个点的簇分配结果发生改变时
对数据集中的每个数据点
对每个质心
计算质心与数据点之间的距离
将数据点分配到距其最近的簇
对每一个簇,计算簇中所有点的均值并将均值作为质心
将所有点看成一个簇
当簇数目小于k时
对于每一个簇
计算总误差
在给定的簇上面进行K均值聚类(K=2)
计算将该簇一分为二之后的总误差
选择使得误差最小的那个簇进行划分操作