文章/答案/技术大牛

发布

首页视频第 3 章无监督学习与预处理：凝聚聚类

第 3 章无监督学习与预处理：凝聚聚类原创

2021-08-012021-08-01 08:47:45播放1.2K

点赞0 收藏 0

凝聚聚类，层次聚类与树状图

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:01
3.5.2凝聚聚类凝聚聚类agormorative classroom指的是许多基于相同原则构建的聚类算法。这一原则是，算法首先声明每个点都是自己的错，然后合并两个最相似的错，直到满足某种停止准则为止。S论中实现的停止准则是错的个数，因此相似的醋被合并，直到仅剩下指定个数的醋。还有一些链接准则规定如何度量最相似的醋，这种度量总是定义在两个现有的醋之间。Sex中实现了以下三种链接准则，Word默认选项word挑选两个醋来合并，使得所有醋中的方差增加最小，这通常会得到大小差不多相等的数。Average average链接将醋中所有点之间平均距离最小的两个组合并。
01:00
Complete complete链接也成最大链接，将醋中点之间最大、距离最小的两个速合并。那么。在论中。凝聚聚类的。接口，以及是哪一个参数实现了这三种链接准则呢？凝聚距离的S接口。就是sex点点agormorative cost这么一个类。参数，NS。整数可选参数默认二负的个数link。Word complete average3选一可选参数默认word链接准则具体解释看到书上140页。Word适用于大多数数据集，在我们的例子中将使用它。如果簇中成员的个数非常不同，比如其中一个比其他所有都大得多，那么average或complete可能效果更好。
02:41
这一幅图给出了在一个二维数据集上凝聚聚类的过程。我们要寻找三个醋。最开始，每个点自成一簇，然后在每一个步骤中，相距最近的两个簇被合并。
03:00
在前四个步骤中选出两个单点簇，并将其合并成两点簇。在步骤五中，其中一个两点簇被扩展到三个点，以此类推，在步骤九中只剩下了三个簇。由于我们指定要寻找三个错，因此算法结束。我们来看一下凝聚聚类对我们这里使用的简单三处数据的效果如何？由于算法的工作原理，凝聚聚类算法不能对新数据点做出预测。因此A。没有predict方法，为了构造模型并得到finance练级上负的成员关系，可以改用fe predict方法。当然，我们也可以使用labels下限属性，正如K均值所说的那样。
05:17
正如所料，算法完美的完成了聚类。虽然凝聚聚类的S都能实现需要你指定希望算法找到的错误的个数，但凝聚聚类方法为选择正确的个数提供了一些帮助。我们将在下面讨论层次聚类与树状图。凝聚聚类生成了所谓的层次聚类hierarchical cluster聚类过程迭代之心，每个点都从一个单点醋变为属于最终的某个处。每个中间步骤都提供了数据的一种聚类，数的个数也不相同，有时候同时查看所有可能的聚类是有帮助的。
06:19
这一幅图。叠加显示了。第几幅图？其中所有可能的聚类。有助于深入了解每个醋如何分解为较小的醋。虽然这种可视化为层次聚类提供了非常详细的视图。但它依赖于数据的二维性质。因此不能用于具有两个以上特征的数据集。但还有另一个将层次聚类可视化的工具，叫做树状图danger。它可以处理多维的数据集。不幸的是，目前S没有绘制树状图的功能，但你可以利用S派轻松生成树状图。S派的聚类算法接口与S论的聚类算法接口不同，S派提供一个函数接受数据数组X，并计算出一个链接数组0K加二。
07:16
它对层次聚类的相似度进行编码，然后我们可以将这个链接数组提供给SPA的单gram函数来绘制树状图。
12:09
嗯。
13:22
注意到这里的word函数，它返回的链接数组究竟是什么样的？我们都不知道。散派点cluster.hiar点。它输入二维的数据数组或者一维的压缩存储的距离矩阵，返回二维的word链接数组。参数就一个参数Y，当Y是一个一维的压缩存储的距离矩阵，那么必须存在正整数A，使得二分之N乘上N减一等于Y的长度。
14:01
并且其中元素全部都是正数。Live。这个链接数组究竟怎么来的？首先根据数据数组X，设距离函数为D，计算任意两点之间的距离。默认欧式距里。比X0 x1。也就是这两个点，222，负211这两个点它们之间的距离是。二和一中间差了一，负二和一中间差了三一的平方加三的平方开根号等于根号十。后面两个距离同理，DX0X等于根号二，DX1X2等于二。第二步，找出最小距离，在这里是DX02。第三步，定义并查及数组A。并差及数组是什么样的？数组值为负，表示其相反数为病差集中元素的个数，否则。
15:03
表示其负索引，首先每个点自成一个负，也就自成一个并差集。第四步是合并距离最近的两个处，合并之后产生的负节点的索引等于最后一个索引，再加上一，这里我要合并的是零和二，因为零二的距离是最小的嘛。合并之后产生的负节点，所以三最后一个索引加一。零和这里写三是因为。病差记数组写30，因为。合并之后。对应的负接电，所以是三。和负件，点三对应的并差积数组的值是负二，表示其中有两个元素。
16:01
第五步。设链接数组为Z，此时可以写出Z的第一行。Z0等于零二，根号二二，当然也可以写成Z0等于二零，根号二二，只不过这里规定两个，所以也就是。你好。要升序排序。第六步，此时只剩下两个醋，直接合并，如果此时还有超过两个簇，需要去计算每一对簇之间的距离，选择距离最小的一对处进行合并，合并之后产生的负接点索引等于最后一个索引。再加上一。合并中产生负接点，所以是四。也就是三加一。四对应并差及数组值是负三，说明其中有三个元素。零和二的并差奇数组值是三，说明它们被合并到了。
17:00
索引为三的附件连上去了。一跟三所引是差的数组值是四。也就是他们被合并到负节点。索引为四的。节点上面去，此时并差集的合并部分全部结束了，可以写出Z的第二行除去第三列元素的所有元素，因为第三列元素是距离吗？在这里。我要去计算，也就是第七步，我要去计算X1和X3的距离，然后我连X3的坐标都不知道，准确来说，X3已经不是一个点了，它里面包含了两个点。这个时候就不能直接去使用欧式距离公式。为了确保合并之后的方差增加最小。可以利用这么一个距离公式。其中U是新加入的醋，由S和T组成，V是森林中没有用到的醋，T等于。V的绝对值加S的绝对值加P的绝对值V的绝对值表示V集合V中元素的个数。
18:07
令U等于X3 V等于X1 X等于X0 T等于X2，那么就有DX1X3也就等于DX3X1也就等于根号下套公式进去。一加一除以三。VSP。每个集合中元素的个数都是一个，分成三。你好。集合中的元素个数是一个1/3，再然后乘上DVS的平方V是。还一。S是X0 X0和X1的距离平方。看一下X0 x1的距离是根号十，那么它的平方就是十。剩下的数据大家自己带带一下。
19:03
最后算出来是根号下26/3。第八步，此时可以写出自己的第二行了，因为距离都出来了，一三根号，20根号下263/3。一三表示。两个子节点的索引。三分之根号根号下26/3表示。两个簇之间的距离。三表示合并之后。簇中元素的个数。因为Z的第一行第三列，也就等于是X的长度。这个时候就说明我没有错。要继续进行合并了，都合并完成了。所以算法结束，此时可的链接数组。
20:04
过程确实有点繁琐，当然掌握了下面两个推论。这个过程也很简单。第一链接数组是一个N减一行四列的矩阵，其中N等于X的长度。第一二两列是当前距离最小的两个负的索引升序排序，第三列是两个处之间的距离，第四列是两个处的元素个数的总数。第二，距离计算法则。当两个数都是液节点，直接使用欧式距离公式，否则使用这么一个距离公式。其中优势新加入的醋由S和T组成，V是森林中没有用到的醋，T等于。VST3折的。元素个数。的累加V的绝对值表示V中元素的个数。
21:02
回到书上。看到这一幅图，树状图的底部显示数据点编号从零到11，然后以这些点表示单个数作为液接点位置。一棵树每合并两个簇，就添加一个新的负接点。从下往上看。数据点。一和四首先被合并。接下来，点六和九被合并成一个数。以此类推，在顶层有两个分支，一个优点是一零五十七六九组成。也就是。这个分支。另一个优点，1432和八组成，也就是这样一个分支。
22:01
就对应于图中左侧两个最大的处。树状图的Y轴不仅说明聚类算法中的两个素。何时合并分支的长度还表示被合并的处之间的距离。在这张树状图中，最长的分支是用标记为three clusters3个醋。这一条线。的虚线表示的三条线，也就是。这三条线。它们是最长的分支，这表示从三个数到两个数的合并过程。合并了一些距离非常远的点，我们在图像的上方再次看到这一点。将剩下的两个处合并为一个处，也需要跨越相对较大的距离。需要注意。不幸的是，凝聚聚类仍然无法分离像粗木子数据集这样复杂的形状。
23:06
但是我们要学习的下一个算法。DBSC可以解决这个问题。

展开

我来说两句

0 条评论

登录后参与评论

作者

不可言诉的深渊

【合辑】《Python 机器学习基础教程》演示视频_已获出版社授权

（24/47）

24分48秒

第 1 章引言（1）

7.3K44

55分54秒

第 1 章引言（2）

6.1K9

6分12秒

第 1 章引言（3）

53分35秒

第 1 章引言（4）

3.4K8

28分33秒

第 2 章监督学习（1）

3K3

52分48秒

第 2 章监督学习：k 近邻

3.4K2

57分13秒

第 2 章监督学习：线性模型（1）

1时8分

第 2 章监督学习：线性模型（2）

37分11秒

第 2 章监督学习：朴素贝叶斯分类器

46分27秒

第 2 章监督学习：决策树

2.2K1

31分24秒

第 2 章监督学习：决策树集成

7171

36分15秒

第 2 章监督学习：核支持向量机（1）

50分55秒

第 2 章监督学习：核支持向量机（2）

1.2K0

30分16秒

第 2 章监督学习：神经网络（1）

1K0

42分38秒

第 2 章监督学习：神经网络（2）

1.1K0

1时1分

第 2 章监督学习（2）

42分12秒

第 3 章无监督学习与预处理（1）

45分52秒

第 3 章无监督学习与预处理：主成分分析（1）

8700

34分54秒

第 3 章无监督学习与预处理：主成分分析（2）

32分42秒

第 3 章无监督学习与预处理：非负矩阵分解

110

15分55秒

第 3 章无监督学习与预处理：用 t-SNE 进行流形学习

1.2K0

23分30秒

第 3 章无监督学习与预处理：k 均值聚类（1）

1.2K0

15分48秒

第 3 章无监督学习与预处理：k 均值聚类（2）

6600

23分14秒

第 3 章无监督学习与预处理：凝聚聚类

1.2K0

11分57秒

第 3 章无监督学习与预处理：DBSCAN

25分23秒

第 3 章无监督学习与预处理（2）

38分30秒

第 3 章无监督学习与预处理（3）

5分17秒

第 3 章无监督学习与预处理（4）

32分31秒

第 4 章数据表示与特征工程（1）

20分16秒

第 4 章数据表示与特征工程（2）

26分39秒

第 4 章数据表示与特征工程（3）

40分50秒

第 4 章数据表示与特征工程（4）

11分56秒

第 4 章数据表示与特征工程（5）

1.2K0

38分40秒

第 5 章模型评估与改进（1）

18分42秒

第 5 章模型评估与改进（2）

1.2K0

34分43秒

第 5 章模型评估与改进（3）

7分14秒

第 5 章模型评估与改进（4）

37分1秒

第 5 章模型评估与改进（5）

1.2K0

55分53秒

第 5 章模型评估与改进（6）

9660

29分27秒

第 5 章模型评估与改进（7）

29分14秒

第 6 章算法链与管道（1）

16分48秒

第 6 章算法链与管道（2）

27分3秒

第 7 章处理文本数据（1）

16分43秒

第 7 章处理文本数据（2）

7分45秒

第 7 章处理文本数据（3）

1.3K1

15分22秒

第 7 章处理文本数据（4）

26分7秒

第 8 章全书总结

第 3 章无监督学习与预处理：凝聚聚类原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第 3 章 无监督学习与预处理：凝聚聚类原创

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第 3 章无监督学习与预处理：凝聚聚类原创