00:01
3.5.2凝聚聚类凝聚聚类agormorative classroom指的是许多基于相同原则构建的聚类算法。这一原则是,算法首先声明每个点都是自己的错,然后合并两个最相似的错,直到满足某种停止准则为止。S论中实现的停止准则是错的个数,因此相似的醋被合并,直到仅剩下指定个数的醋。还有一些链接准则规定如何度量最相似的醋,这种度量总是定义在两个现有的醋之间。Sex中实现了以下三种链接准则,Word默认选项word挑选两个醋来合并,使得所有醋中的方差增加最小,这通常会得到大小差不多相等的数。Average average链接将醋中所有点之间平均距离最小的两个组合并。
01:00
Complete complete链接也成最大链接,将醋中点之间最大、距离最小的两个速合并。那么。在论中。凝聚聚类的。接口,以及是哪一个参数实现了这三种链接准则呢?凝聚距离的S接口。就是sex点点agormorative cost这么一个类。参数,NS。整数可选参数默认二负的个数link。Word complete average3选一可选参数默认word链接准则具体解释看到书上140页。Word适用于大多数数据集,在我们的例子中将使用它。如果簇中成员的个数非常不同,比如其中一个比其他所有都大得多,那么average或complete可能效果更好。
02:41
这一幅图给出了在一个二维数据集上凝聚聚类的过程。我们要寻找三个醋。最开始,每个点自成一簇,然后在每一个步骤中,相距最近的两个簇被合并。
03:00
在前四个步骤中选出两个单点簇,并将其合并成两点簇。在步骤五中,其中一个两点簇被扩展到三个点,以此类推,在步骤九中只剩下了三个簇。由于我们指定要寻找三个错,因此算法结束。我们来看一下凝聚聚类对我们这里使用的简单三处数据的效果如何?由于算法的工作原理,凝聚聚类算法不能对新数据点做出预测。因此A。没有predict方法,为了构造模型并得到finance练级上负的成员关系,可以改用fe predict方法。当然,我们也可以使用labels下限属性,正如K均值所说的那样。
05:17
正如所料,算法完美的完成了聚类。虽然凝聚聚类的S都能实现需要你指定希望算法找到的错误的个数,但凝聚聚类方法为选择正确的个数提供了一些帮助。我们将在下面讨论层次聚类与树状图。凝聚聚类生成了所谓的层次聚类hierarchical cluster聚类过程迭代之心,每个点都从一个单点醋变为属于最终的某个处。每个中间步骤都提供了数据的一种聚类,数的个数也不相同,有时候同时查看所有可能的聚类是有帮助的。
06:19
这一幅图。叠加显示了。第几幅图?其中所有可能的聚类。有助于深入了解每个醋如何分解为较小的醋。虽然这种可视化为层次聚类提供了非常详细的视图。但它依赖于数据的二维性质。因此不能用于具有两个以上特征的数据集。但还有另一个将层次聚类可视化的工具,叫做树状图danger。它可以处理多维的数据集。不幸的是,目前S没有绘制树状图的功能,但你可以利用S派轻松生成树状图。S派的聚类算法接口与S论的聚类算法接口不同,S派提供一个函数接受数据数组X,并计算出一个链接数组0K加二。
07:16
它对层次聚类的相似度进行编码,然后我们可以将这个链接数组提供给SPA的单gram函数来绘制树状图。
12:09
嗯。
13:22
注意到这里的word函数,它返回的链接数组究竟是什么样的?我们都不知道。散派点cluster.hiar点。它输入二维的数据数组或者一维的压缩存储的距离矩阵,返回二维的word链接数组。参数就一个参数Y,当Y是一个一维的压缩存储的距离矩阵,那么必须存在正整数A,使得二分之N乘上N减一等于Y的长度。
14:01
并且其中元素全部都是正数。Live。这个链接数组究竟怎么来的?首先根据数据数组X,设距离函数为D,计算任意两点之间的距离。默认欧式距里。比X0 x1。也就是这两个点,222,负211这两个点它们之间的距离是。二和一中间差了一,负二和一中间差了三一的平方加三的平方开根号等于根号十。后面两个距离同理,DX0X等于根号二,DX1X2等于二。第二步,找出最小距离,在这里是DX02。第三步,定义并查及数组A。并差及数组是什么样的?数组值为负,表示其相反数为病差集中元素的个数,否则。
15:03
表示其负索引,首先每个点自成一个负,也就自成一个并差集。第四步是合并距离最近的两个处,合并之后产生的负节点的索引等于最后一个索引,再加上一,这里我要合并的是零和二,因为零二的距离是最小的嘛。合并之后产生的负节点,所以三最后一个索引加一。零和这里写三是因为。病差记数组写30,因为。合并之后。对应的负接电,所以是三。和负件,点三对应的并差积数组的值是负二,表示其中有两个元素。
16:01
第五步。设链接数组为Z,此时可以写出Z的第一行。Z0等于零二,根号二二,当然也可以写成Z0等于二零,根号二二,只不过这里规定两个,所以也就是。你好。要升序排序。第六步,此时只剩下两个醋,直接合并,如果此时还有超过两个簇,需要去计算每一对簇之间的距离,选择距离最小的一对处进行合并,合并之后产生的负接点索引等于最后一个索引。再加上一。合并中产生负接点,所以是四。也就是三加一。四对应并差及数组值是负三,说明其中有三个元素。零和二的并差奇数组值是三,说明它们被合并到了。
17:00
索引为三的附件连上去了。一跟三所引是差的数组值是四。也就是他们被合并到负节点。索引为四的。节点上面去,此时并差集的合并部分全部结束了,可以写出Z的第二行除去第三列元素的所有元素,因为第三列元素是距离吗?在这里。我要去计算,也就是第七步,我要去计算X1和X3的距离,然后我连X3的坐标都不知道,准确来说,X3已经不是一个点了,它里面包含了两个点。这个时候就不能直接去使用欧式距离公式。为了确保合并之后的方差增加最小。可以利用这么一个距离公式。其中U是新加入的醋,由S和T组成,V是森林中没有用到的醋,T等于。V的绝对值加S的绝对值加P的绝对值V的绝对值表示V集合V中元素的个数。
18:07
令U等于X3 V等于X1 X等于X0 T等于X2,那么就有DX1X3也就等于DX3X1也就等于根号下套公式进去。一加一除以三。VSP。每个集合中元素的个数都是一个,分成三。你好。集合中的元素个数是一个1/3,再然后乘上DVS的平方V是。还一。S是X0 X0和X1的距离平方。看一下X0 x1的距离是根号十,那么它的平方就是十。剩下的数据大家自己带带一下。
19:03
最后算出来是根号下26/3。第八步,此时可以写出自己的第二行了,因为距离都出来了,一三根号,20根号下263/3。一三表示。两个子节点的索引。三分之根号根号下26/3表示。两个簇之间的距离。三表示合并之后。簇中元素的个数。因为Z的第一行第三列,也就等于是X的长度。这个时候就说明我没有错。要继续进行合并了,都合并完成了。所以算法结束,此时可的链接数组。
20:04
过程确实有点繁琐,当然掌握了下面两个推论。这个过程也很简单。第一链接数组是一个N减一行四列的矩阵,其中N等于X的长度。第一二两列是当前距离最小的两个负的索引升序排序,第三列是两个处之间的距离,第四列是两个处的元素个数的总数。第二,距离计算法则。当两个数都是液节点,直接使用欧式距离公式,否则使用这么一个距离公式。其中优势新加入的醋由S和T组成,V是森林中没有用到的醋,T等于。VST3折的。元素个数。的累加V的绝对值表示V中元素的个数。
21:02
回到书上。看到这一幅图,树状图的底部显示数据点编号从零到11,然后以这些点表示单个数作为液接点位置。一棵树每合并两个簇,就添加一个新的负接点。从下往上看。数据点。一和四首先被合并。接下来,点六和九被合并成一个数。以此类推,在顶层有两个分支,一个优点是一零五十七六九组成。也就是。这个分支。另一个优点,1432和八组成,也就是这样一个分支。
22:01
就对应于图中左侧两个最大的处。树状图的Y轴不仅说明聚类算法中的两个素。何时合并分支的长度还表示被合并的处之间的距离。在这张树状图中,最长的分支是用标记为three clusters3个醋。这一条线。的虚线表示的三条线,也就是。这三条线。它们是最长的分支,这表示从三个数到两个数的合并过程。合并了一些距离非常远的点,我们在图像的上方再次看到这一点。将剩下的两个处合并为一个处,也需要跨越相对较大的距离。需要注意。不幸的是,凝聚聚类仍然无法分离像粗木子数据集这样复杂的形状。
23:06
但是我们要学习的下一个算法。DBSC可以解决这个问题。
我来说两句