图（a）上有一群散落的点，我们设定簇数K=2。
图（b）为随机找2个点作为中心初始化后，第一次分类的结果。
- 可以看到，红蓝分界线在这群点的中央穿过。这显然有问题，不过没关系，算法继续往下走。对红蓝两类分别计算它们的中心。
图（c）可以看到，一个落在左下方这一团里，另一个落在右上方那一团里。以新的中心点进行第二次分类。
图（d）的分界线就基本是已经可以把两团分开了。
图（f）、（g）显示后续重复计算你「中心点-分类数据点」的过程已经收敛，数据点分配基本不动了，聚类完成。

下方的动图能更清晰地展示这个过程：

3.K-Means缺点与改进

1）K-Means算法缺点

K-Means算法简单易用，它有什么缺点呢？我们将K-Means算法的一些缺点总结如下：

缺点1：中心点是所有同一类数据点的质心，所以聚类中心点可能不属于数据集的样本点。
缺点2：计算距离时我们用的是L2距离的平方。对离群点很敏感，噪声（Noisy Data）和离群点（Outlier）会把中心点拉偏，甚至改变分割线的位置。

2）K-Medoids算法

针对K-Means算法的缺点改进得到了K-Medoids算法：

（1）限制聚类中心点必须来自数据点。

求中心点的计算方法，由原来的直接计算重心，变成计算完重心后，在重心附近找一个数据点作为新的中心点。
K-Medoids重拟合步骤比直接求平均的K-Means要复杂一些。

（2）为避免平方计算对离群点的敏感，把平方变成绝对值。

总结来说，K-Medoids算法的迭代过程与K-Means是一致的，不同点如下所示：

起始点不是随机点，而是任意选择数据集中的点。
距离使用L1距离，而不是L2距离。
新的中心点，也不是同类所有点的重心，而是同一类别所有数据点中，离其它点最近的点。
复杂度方面，相比于K-Means的 O(n) ，K-Medoids更新中心点的复杂度 O(n^2) 要更高一些。

下图是K-Means和K-Medoids两个算法的一个系统对比：

4.层次聚类算法

相比于K-Means这类划分聚类，我们有另外一类层次化聚类算法。

1）层次聚类vs划分聚类

划分聚类得到的是划分清晰的几个类，而层次聚类最后得到的是一个树状层次化结构。

从层次化聚类转换为划分聚类很简单，在层次化聚类的某一层进行切割，就得到1个划分聚类。如下图所示：

2）Single-Linkage 算法

接下来我们介绍一个层次聚类中的Single-Linkage算法。这个算法是构造一棵二叉树，用叶节点代表数据，而二叉树的每一个内部节点代表一个聚类。如图所示：

这是一个从下而上的聚类。这棵树是先有叶子，顺着叶子逐渐长树枝，树枝越长越大一直到树根。

如果叶子很多，这个生长过程需要合并的类就会很多。图中有11个数据点，一共发生了10次合并。

3）Complete-Linkage算法

与Single-Linkage算法相似，Complete-Linkage的迭代思路是一样的，不同的是在合并类时，Single-Linkage是用两个类中距离最小的两个点作为类之间的距离，而Complete-Linkage恰恰相反，用距离最远的两个数据点之间的距离作为这两个类之间的距离。

这两种计算方法各有利弊。总的来说，层次聚类的计算复杂度是 O(n^3) 级别，算是很高的了。可以用优先队列的数据结构对算法加速，加速后能减低到 O(n^{2} \log{n} ) 的级别。

5.DB-SCAN算法

1）DB-SCAN算法

在前面的内容中我们介绍了划分聚类和层次聚类的算法，接下来我们学习另外一个聚类算法：DB-SCAN算法。

DB-SCAN是一个基于密度的聚类。如下图中这样不规则形态的点，如果用K-Means，效果不会很好。而通过DB-SCAN就可以很好地把在同一密度区域的点聚在一类中。

2）DB-SCAN算法的关键概念

核心对象（Core Object），也就是密度达到一定程度的点。

若 x_j 的 \in - 邻域至少包含MinPts个样本，即 |N_\in (x_j )|≥MinPts ，则 x_j 是一个核心对象。

密度直达（directly density-reachable），密度可达（density-reachable）：核心对象之间可以是密度直达或者密度可达。

若 x_i 位于 x_j 的 \in - 邻域中，且 x_j 是核心对象，则称 x_j 由 x_j 密度直达。
对 x_i 与 x_j ，若存在样本序列 p_1,p_2, \dots, p_n ，其中 p_1=x_i ， p_n=x_j 且 p_i+1 由 p_i 密度直达，则称 x_j 由 x_i 密度可达。

密度相连（density-connected）：所有密度可达的核心点就构成密度相连。

对 x_i 与 x_j ，若存在 x_k 使得 x_i 与 x_j ，均由 x_k 密度可达，则称 x_i 与 x_j 密度相连。

我们通过下图深入理解一下刚才提到的几个基本概念。

先假设要求的最小点密度MinPts是3。

在一个半径范围内， x_1 这个点周围的点数是5，超过了阈值3，所以 x_1 是一个核心对象。同样， x_2 、 x_3 和 x_4 也是核心对象。
x_1 与 x_2 处于一个邻域，所以二者是密度直达的关系，而 x_3 与 x_2 也是密度直达的关系，通过 x_2 ， x_1 与 x_3 是密度可达的关系。
x_3 与 x_4 通过多个核心对象实现密度相连。

3）DB-SCAN算法伪代码

这个过程用直白的语言描述就是：

对于一个数据集，先规定最少点密度MinPts和半径范围。
先找出核心对象：如果在半径范围内点密度大于MinPts，则这个点是核心对象。把所有的核心对象放到一个集合中。
从这个核心对象集合中，随机找一个核心对象，判断其它的数据点与它是否密度直达，如果是，则归入聚类簇中。
继续判断其它点与聚类簇中的点是否密度直达，直到把所有的点都检查完毕，这时候归入聚类簇中的所有点是一个密度聚类。

更多无监督学习的算法模型总结可以查看ShowMeAI的文章 AI知识技能速查 | 机器学习-无监督学习。

视频教程

可以点击 B站 查看视频的【双语字幕】版本

【双语字幕+资料下载】MIT 6.036 | 机器学习导论(2020·完整版)
https://www.bilibili.com/video/BV1y44y187wN?p=13

图解机器学习算法&实战 ◉ 从入门到精通

图解机器学习 | 聚类算法详解

引言

1.聚类问题

1）聚类问题与核心概念

2）聚类算法用途

3）主流聚类算法

2.K-Means聚类算法

1）K-Means算法核心概念

2）K-Means算法步骤