聚类分析 (clustering analysis) 是数据挖掘研究最为活跃、内容最为丰富的领域之一,其目的是通过对数据的深度分析,将一个数据集拆分成若干个子集 (每个子集称为一个簇,cluster),使得同一个簇中数据对象 (也称数据点) 之间的距离很近或相似度较高,而不同簇中的对象之间距离很远或相似度较低。
聚类分析 (clustering analysis) 就是根据某种相似性度量标准,将一个没有类别标号的数据集
(表10-1) 直接拆分成若干个子集
,并使每个子集内部数据对象之间相似度很高,而不同子集的对象之间不相似或相似度很低。每个子集
称为一个簇,所有簇构成的集合
称为数据集
的一个聚类。
聚类分析与分类规则挖掘不同,前者是一种探索性的分析过程。聚类分析的数据集
中没有已知的先验知识 (即对象的类别标号) 来指导,它要求直接从
本身出发,依据某种相似度标准为
的每个对象给出类别标号。因此,聚类分析也称为无监督的分类 (unsupervised classification)。对于同一个数据集,就算使用同一个聚类算法,如果选择了不同的“相似度”标准,也常常会得到不同的聚类结果。 聚类分析作为数据挖掘的一个热门研究领域,在帮助人们获取潜在的、有价值的信息并过滤掉无用的信息方面起到了至关重要的作用。 目前,数据聚类技术在许多领域都已得到实际应用。在生物学的研究中,科学家们可以通过聚类算法来分析大量的遗传信息,从而发现哪些基因组具有类似的功能,以此获得对种群的认识;在信息检索方面,聚类算法可以将搜索引擎返回的结果划分为若干个类,从每个类中获取查询的某个特定方面,从而产生一个类似树状的层次结构来帮助用户进一步探索查询结果;在医学领域的研究中,一种疾病通常会有多个变种,而聚类分析可以根据患者的症状描述来确定患者的疾病类型,以此提高诊断效率和治疗效果;在气象领域,聚类已经被用来发现对气候具有明显影响的海洋大气压力模式;在电子商务中,聚类分析可以对用户群体进行细分,并针对不同类型的用户进行不同的营销策略,以提升销售额。
定义10-1 设有数据集
,其中
为
维向量 (表10-1),
为定义在
上的相似度函数。若利用函数
可将
拆分成
个子集
,并记
,使
满足以下条件: (1)
(10-1) (2)
(10-2) (3)
(10-3) (4)
或接近
;
和
或接近
;则称
为
由
生成的一个簇 (cluster),简称簇
;同时,称
为
由
生成的一个划分聚类 (partitional clustering),简称
为
的划分聚类,或称为互斥 (exclusive) 的聚类。
(2)+ 如果将公式 (10-2) 改为
而其它假设条件都不变,则称
为
的部分聚类 (partial clustering)。这时,
中的某些对象没有分配到任何簇中。
(2)++ 如果将定义10-1中的公式 (10-2) 改为
且至少存在两个簇
,而其它假设不变,则称
为
的非互斥聚类 (non-exclusive clustering),也称
为重叠聚类 (overlapping clustering)。
相似度函数
,通常可使用之前介绍的某种相似度,但一般都需要根据实际数据集
的属性类型来选择或确定;可选择距离或相异度
来作为相似性的度量标准,这时只要将定义10-1中的第(4)条改为“对
或接近
,对
和
很大”即可。还可以定义其它广义的“相似度”,比如簇内点的密度,或要求每个簇构成某种形状等。聚类分析不仅与数据集
有关,而且与所选择的相似性度量有关。 在实际应用中,对于一个给定的数据集
,如何选择恰当的相似性度量却没有普遍适用的标准,仍是一个困难而富有挑战性的问题。
例10-1 假设数据集
有20个点,其在平面上位置如图10-1(1)所示。我们可将数据集
分别交给甲、乙、丙3个同学,希望他们自己选择恰当的相似度标准对
进行聚类。
虽然三个同学的聚类结果不一样,但老师在评分时给三个同学都是满分,因为都是在各自选定的相似度标准下正确的聚类结果。
聚类分析旨在发现“有用”或“有意义”的簇,这里的有用性或意义完全由数据挖掘目的来决定。虽然实际存在有很多种类的簇,但数据挖掘的实践表明,无论多么奇怪的簇在实际应用中都可能是有用的。 簇的类型一般可从簇的形状和簇间关系来划分。
1、簇的形状
从簇的形状主要分为类球状 (凸形) 的簇,非球状的簇两种类型。 (1)类球状的簇 (图10-2),一般是聚类算法使用距离函数所产生的簇,而非球状的簇,通常由基于密度或基于原型的聚类算法获得的簇。
(2)非球状的簇,通常由基于密度或基于原型的聚类算法获得的簇。
2、簇间关系
1)明显分离的簇
簇中每个数据对象到同簇中其它对象的距离,比到不同簇中任意对象的距离更近;下图中不同簇中任意两点之间的距离都大于簇内任意两点之间的距离。当然,明显分离的簇不必是球形的,也可以是其它任意的形状。
2)基于原型的簇
所谓原型其实就是簇中最具代表性的点。对连续属性的数据,簇的原型通常就是质心,即簇中所有点的平均值。当数据包括分类属性时,簇的原型通常是中心点,即簇中最有代表性的点。对于许多数据类型,原型可以视为最靠近中心的点,因此,通常把基于原型的簇看作基于中心的簇 (center-based cluster),下图就是一个基于中心的簇的例子。
3)基于连片的簇 (contiguity-based cluster)
簇中两个相邻对象的距离都在指定的阈值之内即将其归为同一个簇。当簇的形状不规则或缠绕,且数据集没有噪声时,用这种方式来定义簇会收到很好的聚类效果。如果存在噪声,其聚类效果就不一定理想。图中的哑铃状簇,就是由线状 (噪声) 连接两个球状簇形成的一个簇。
4)基于密度的簇 (density-based cluster)
基于密度的簇由对象间相对稠密的区域组成,且其周围是低密度的区域。一般通过指定簇中任何一个对象周围区域内最少点数 (即密度) 来实现。下图有3个基于密度的簇,它们是在哑铃状图中添加了一些低密度的对象创建的。由于增加了低密度噪声点的缘故,原先的S状、线状簇不能形成较稠密的簇而被当作噪声排斥在外。当簇的形状不规则或互相盘绕,并且有噪声和离群点时,使用基于密度的簇定义通常得到较理想的聚类效果。
5)基于概念的簇
即具有某种“共同性质”的数据对象集合。比如,离相同的质心或中心点最近,或组成三角形、梯形,或圆环状 (重叠聚类) 等。
算法10-1 聚类算法框架 输入:数据集
,相似度
,以及簇的个数
; 输出:聚类
; (1)任意产生
的一个聚类
(2)以
为相似性标准对
循环更新聚类
的簇
,直到满意为止。
其中,“满意”的标准一般是簇内对象之间的距离很近,簇与簇之间的距离很远等相似度或相异度。
,密度半径
和最少点数 MinPts 等具有自适应能力,可以减少甚至克服初始参数对聚类的结果影响,以保障聚类的质量。
值得注意的是,在实际的算法设计中,要求一个聚类算法同时具备以上所有能力是不现实的,如果能够同时具备其中的3-4个能力已算是相对优质的算法了。
数据集
的一个聚类
的质量,包括每个簇
的质量和
的总体质量。前者用簇内距离来刻画,后者用簇间距离来衡量。
1、簇内距离
1)簇的直径
簇
中任意两个对象之间欧氏距离的最大者,也称为簇外径,并记作
2)簇的内径
簇
中任意两个对象之间欧氏距离的最小者,并记作
3)簇的平均距离
簇
中任意两个对象之间欧氏距离之和与
中元素个数取2的组合数比值,并记作
4)簇的中心距离和
设
为簇
的中心点,簇中每个点到中心点的距离之和,并记作
2、簇间距离
设有两个簇
和
,且对于任意
,
,其距离为
,则两个簇之间的距离
,一般可采用以下几种方式来定义。
1)簇间最小距离
以两个簇中任意两个元素距离的最小者 (smallest),即
2)簇间最大距离
以两个簇中任意两个元素距离的最大者 (largest) ,即
3)簇间中心距离
以两个簇
和
的中心点
和
之间的距离作为两个簇之间的距离度量,即
其中
的中心定义为
簇间中心距离也称为均值距离。值得注意的是,簇中心常常不是该簇中的一个对象 (虚拟对象)。
4)簇间平均距离
以两个簇中任意两个元素距离的平均值作为两个簇之间的一种距离度量,即
实际应用中可以用
替换
。
5)离差距离
令簇的中心距离平方和记作
对于任意两个簇
,
,如果令
,则簇
与簇
之间的平方和离差定义为
并简称
为簇
与
的离差距离。
由定义10-1可知,数据集
的划分聚类
有两个特点: (1)每个簇至少包括一个数据对象; (2)每个数据对象属于且仅仅属于一个簇; 将聚类算法框架10-1具体化,可得划分聚类算法框架,如下。
算法10-2:划分聚类算法框架 输入:数据对象集
和正整数
输出:“好”的划分聚类
(1)生成初始划分聚类
(2)REPEAT (3)依照某种评价函数
改变
,使新划分聚类
比
更好 (4)UNTIL
没有改变为止 (5)将
作为聚类
输出
1、聚类C的簇内差异
设聚类
,则它的簇内差异可选择某种距离函数,通过计算簇内每个对象到其中心点距离的平方和来表示,即聚类
的簇内差异定义为
从总体上评价聚类
中每个簇的紧凑性,在有些文献资料中也称为误差平方和 (sum of the squared error, SSE),并用
表示。
2、聚类C的簇间差异
用
中任意两个簇中心之间的距离平方和来刻画聚类
的簇间疏远性,并记作
由于
有
个簇,因此公式(10-18)右边是
个距离平方之和。
3、聚类C的评价函数
为了同时评价聚类
的每个簇是紧凑的,以及不同簇之间是疏远的,即评价聚类
的总体质量,其基本思想是同时考虑聚类
的簇内差异
以及簇间差异
的影响。因此,可考虑使用以下几种形式的评价函数作为聚类的质量标准。
(1)
(2)
(3)
(4)
,其中
为指定的权值,且
。
(5)
,这里的
为二元目标函数,或多目标函数。
因此,算法10-2就是寻找使
达到最小,或使
达到最小的聚类
,即是我们需要的好聚类。
1、算法描述
k-means算法也称k-平均算法,它采用距离作为相异度的评价指标,以簇内差异函数
作为聚类质量的优化目标函数,即将所有数据对象到它的簇中心点的距离平方和作为目标函数,算法寻找最优聚类的策略是使目标函数达到最小值 (簇中心不变化等价于
达最小)。
算法10-3 基本k-平均算法 输入:数据对象集
和正整数
输出:划分聚类
(1)初始步:从
中随机选择
个对象作为
个簇的中心,并将它们分别分配给
(2)REPEAT (3)将
的每个对象
归入距中心最近的那个簇
(4)重新计算每个簇
的中心,即每个簇中对象的平均值 (5)Until所有簇中心不再变化
2、计算实例
例10-2 设数据集
,令
, 试用k-平均算法将
划分为
个簇。
解:数据集
可表示为一张二维表;而每个对象在平面上的相对位置可用下图所示:
因为
,故
的聚类
,由k-平均算法得循环计算如下:
(1)初始步:任选
分别作为簇的中心,即
和
;
(2)第一轮循环。 注意到
已分配到
和
,因此 ① 计算
的归属:因为
且
;所以
归
代表的簇,即
; ② 计算
的归属:因为
且
;所以
归
代表的簇,即
; ③ 计算
的归属:因为
且
;所以
归
代表的簇, 即
; ④ 同理
也归入
代表的簇,故得初始簇为
⑤ 重新计算得
和
的中心点分别是
(3)第二轮循环。 分别将
别分配到最近的中心点
或
。 类似第一轮计算可得
的两个簇
计算得
和
的中心点分别是
(4)第三轮循环。 分别将
分配给最近的中心点
或
。 类似第二轮循环的计算,最终可得
的两个簇
重新计算得
和
的中心点分别是
由于簇中心已没有变化,因此算法停止,并输出
的聚类
思考:若在此例中指定
,而初始点选择为
与
,其结果会有啥差异。
3、算法分析说明
1)算法的优点
① k-平均算法简单、经典,常作为其它聚类算法的参照或被改进。 ② k-平均算法以
个簇的误差平方和最小为目标,当聚类的每个簇是密集的,且簇与簇之间区别明显时,其聚类效果较好。 ③ k-平均算法处理大数据集高效,且具较好的可伸缩性,其计算复杂性为
,
是数据对象个数,
为簇个数,
是迭代次数。
2)算法的缺点
① k-平均算法对初始中心点的选择比较敏感。对同一个数据集,如果初始中心选择不同,其聚类结果也可能不一样。 ② k-平均算法对参数
是比较敏感的,即使是同一个数据集,如果
选择不同,其聚类结果可能完全不一样。 ③ k-平均算法以簇内对象的平均值作为簇中心来计算簇内误差,在连续属性的数据集上很容易实现,但在具有离散属性的数据集上却不能适用。
1、空簇问题
基本k-平均算法在实际计算中可能出现的空簇现象,导致算法下一轮循环无法进行。
例10-3 假设
由表10-3给出,即
为二维平面上7个点的数据集。令
,请用k-平均算法将
聚类成3个簇。
解:数据集
在平面上的相对位置如下图所示。
(1)初始步:选择
作为初始中心,并将它们分别指派给三个簇,即得
;
(2)第一次迭代 计算
与中心点
的距离平方
将它们指派给距离平方最近的中心点,可得3个簇
计算得簇
新的中心点为
。
(3)第二次迭代 计算
与3个新中心点的距离
将
指派给距离平方和最小的中心点,可得
这时
就是一个空簇,因此没有簇的中心点,导致下一步计算无法进行。有以下两种策略来选择一个替补的中心。 (1)选择一个距离当前任何质心最远的点,并可消除当前对总平方误差影响最大的点。 (2)从具有最大
的簇中选择一个替补质心,并对该簇进行分裂簇,以此降低聚类的
。
2、离群点问题
k-平均算法使用误差平方和
作为优化目标时,离群点可能过度影响所发现的簇质量,即当存在离群点时,聚类结果簇的质心可能不如没有离群点时那样具有代表性,并且
也比较高。此例
就是明显的离群点。因此,如果能够提前发现离群点并删除它们,在k-平均算法的聚类应用中常常是有用的。 在有些实际应用中,如股票市场交易分析,一些明显的离群点 (股票黑马) 恰恰可能是最令人感兴趣的。
为降低k-平均算法对噪声数据的敏感性,k-中心点 (k-medoids) 算法不采用簇的平均值 (通常不是簇中的对象,称为虚拟点) 作为簇中心点,而是选择簇中一个离平均值最近的具体对象作为簇中心。
1、算法原理
k-中心点算法选择一个簇中位置距平均值点最近的对象替换k-平均算法的平均值中心点。首先为每个簇随机选择一个代表对象作中心点,其余对象 (非中心点) 分配给最近的代表对象所在的簇。然后反复地用一个用非代表对象替换一个代表对象,使其聚类质量更高 (用某种代价函数评估),直到聚类质量无法提高为止。 设
,任选
个对象
作为中心点,记作中心点集
,其余
个对象称为非中心点,记作非中心点集
,并将它们分配给最近的中心点,并得聚类
,其中
的中心点为
。 然后计算用一个非中心点
去替换每一个中心点
的代价
,找出代价最小且为负数对应的替代方案。若中心点
被一个非中心点
替换,就得到新的中心点集合
,则可能引起
中每个对象
到新中心点的距离变化,将这种变化之和称为代价,记作
其中
表示
因
被
替换后产生的代价,用替换前后
到中心点距离之差表示,且
的值因
原先是否在
代表的簇中而对应不同的计算方法。
(1)若
原先属于
的簇
,则有两种情况。 ①
现在离某中心点
最近 (图10-11a),则
被重新分到
的簇,其代价
②
现在离新中心点
最近 (图10-11b),则
被重新分配到
的簇中, 其代价
(2)若
原先属于某中心点
的簇
,也有两种情况 ①
现在离中心点
仍然最近 (图10-12a),则
保留在
的簇中,其代价
②
现在离新中心点
最近 (图10-12b),则将
重新分配到
的簇中,其代价
由于中心点有
个,非中心点有
个,因此,中心点
被一个非中心点
替换就有
个不同的方案及其对应的代价。 如果
且
,则将中心点
用非中心点
替换,使
中每个点到新中心点的距离之和减少,即提高了聚类的总体质量。 在得到新的中心点集之后,计算得到新的聚类,然后继续寻找可替换的中心点,直到中心点集没有变化为止。
2、算法描述
算法10-4 k-中心点聚类算法 输入:簇的个数
和数据集
输出:低价最小的聚类
(1)从
中随机选
个对象作为中心点集
(2)REPEAT (3)将所有非中心点分配给离它最近的中心点,并得聚类
(4)FOR
(5) FOR
(6) 计算
中每个
因中心点
被非中心点
替换后重新分配的代价
(7)
(8) END FOR (9)END FOR (10)
(11)如果
,则将
用
替换,得新中心点集
(12)UNTIL中心点集
无需变化 (13)输出