1、K-Means(K均值)聚类 算法步骤: (1)选择一些类,随机初始化它们的中心点。 (2)计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。 (3)计算每一类中中心点作为新的中心点。 (4)重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点,然后选择运行结果最好的一个。
2、均值漂移聚类 均值漂移聚类是基于滑动窗口的算法,来找到数据点的密集区域。这是一个基于质心的算法,通过将中心点的候选点更新为滑动窗口内点的均值来完成,来定位每个类的中心点。然后去除相似窗口,最终形成中心点集及相应的分组。 算法步骤: (1)确定滑动窗口半径r,以随机选取的中心点C半径为r的圆形滑动窗口开始滑动。均值漂移类似一种爬山算法,在每一次迭代中向密度更高的区域移动,直到收敛。 (2)每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度。在每一次移动中,窗口会想密度更高的区域移动。 (3)移动窗口,计算窗口内的中心点以及窗口内的密度,知道没有方向在窗口内可以容纳更多的点,即一直移动到圆内密度不再增加为止。 (4)步骤一到三会产生很多个滑动窗口