文章/答案/技术大牛

发布

首页视频第 3 章无监督学习与预处理：DBSCAN

第 3 章无监督学习与预处理：DBSCAN原创

2021-08-032021-08-03 09:32:08播放8

点赞0 收藏 0

DBSCAN

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:01
3.5.3dBSC另一个非常有用的聚类算法是DB sc based special classroom of apps with noise及具有噪声的基于密度的空间聚类应用。DB scan的主要优点是他不需要。用户鲜艳的设置出的个数可以划分具有复杂形状的醋。还可以找出不属于任何错的点。DB比凝聚聚类和K均值稍微慢一点。但仍然可以扩展到相对较大的数据集。DB scan的原理是识别特征空间的拥集区域中的点，在这些区域中，许多数据点靠近在一起，这些区域被称为特征空间的密集区域。DB scan背后的思想是促形成数据的密集区域，并由。相对较空的区域分隔开。在密集区域内的点被称为核心样本for sample或核心点。它们的定义如下，DBSC有两个参数，Minimum samples和EPS。
01:10
如果在距一个给定数据点EPS的距离内至少有0SAMPLES的数据点，那么这个数据点就是核心样本DBSC将彼此距离小于EBS的核心样本。放到同一个簇中。算法，首先任意选取一个点，然后找到到这个点的距离小于等于EPS的所有的点。如果距起始点的距离在EPS之内的数据点个数小于minimum symbols，那么这个点被标记为噪声noise。也就是说，它不属于任何处。如果距离在EPS之内的数据点个数大于minimum symbols，则这个点被标记为核心样本。并且被分配一个新的促标签，然后访问该点的所有邻居。在距离EPS以内，如果他们还没有被分配一个处，那么就将刚刚创建的新的促标签分配给他们，如果他们是核心样本，那么就依次访问其邻居，以此类推，处逐渐增大。
02:11
直到在错误的EPS距离内没有更多的核心样本为止，然后选取另一个尚未被访问过的点，并重复着相同的过程。最后一共有三种类型的点，核心点与核心点的距离在EPS之内的点。也叫做边界点、防追point和噪声。如果DB scan算法在特定数据集上多次运行。使用相同的参数的情况下多次运行。那么核心点的聚类。始终相同，同样的点也始终被标记为了噪声。但边界点可能不止。可能与不止一个错的核心样本相连，因此边界点所属的错误依赖于数据点的访问顺序。一般来说，只有很少的边界点，这种对访问顺序的轻度依赖并不重要。
03:05
我们将DB scan应用于演示凝聚聚类的模拟数据集。与凝聚聚类类似，DBSC也不允许对新的测试数据进行预测，所以我们将使用face predict方法来执行聚类，并返回错误的标签。
04:44
如你所见，所有数据点都被分配了标签负一，这代表噪声。这是EPS和minimum samples默认参数设置的结果。对于小型的玩具，数据集并没有调节这些参数。minimum samples和EPS取不同值的时候错的分类，我们来看一下。
05:25
在这张图中。属于粗的点是实心的，而噪声点则显示为空心的。核心样本显示为较大的标记，而边界点则显示为较小的标记，增大EPS。在图中从左到右更多的点会不会包含在一个醋中，这会让醋变大？但可能也会导致多个醋合并成一个醋，增大MINIMUM3S在图中，从上到下核心点会变得更少，更多的点被标记为噪声参数。EPS在某种程度上更加重要，因为它决定了点与点之间接近的含义。将EPS设置的非常小，意味着没有点是核心样本，可能会导致所有点都被标记为噪势。将EPS设置的非常大，可能会导致所有点形成单个簇。
06:16
设置minimums主要是为了判断稀疏区域内的点被标记为异常值还是形成自己的醋。如果增大minimum symbols，任何一个包含少于minimums和样本的处。现在将被标记为噪声。因此，Minimum symbols。决定了醋的最小尺寸。我们看到图中EPS等于1.5。所对应的列是这一列。
07:00
从minimum symbols等于三到minimum symbols等于五。也就是这两行。MINI3不S等于三的时候。这一幅图，它有三个簇。一个包含。四个点。一个包含五个点。一个包含三个点。明天3S等于五十两个较小的醋。分别包含三个点和四个点的这两个数。被标记成了噪声。只保留了包含五个样本的醋。虽然DBSC不需要显示的设置错的个数，但设置EPS可以隐示的控制找到的错的个数。使用standard scale。或者mini max对数据进行缩放之后，有时会更容易找到EPS的较好取值，因为使用这些缩放技术将确保所有特征具有相似的范围。
08:08
下面我给出在出木子数据集上运行DB scan的结果，利用默认设置。算法找到了两个半圆形，并将其分开。
09:36
嗯。
11:05
由于算法找到了我们想要的错的个数，也就是两个数，两个半月形。因此，参数设置的效果似乎很好。如果将EPS减小到0.2，默认值为0.5，我们将会得到八个数，这显然太多了。将ES增大到0.7，则会导致只有一个醋。在使用DB scan时，你需要谨慎处理返回的错分配。如果使用错标签对另一个数据进行索引，那么。使用负一表示噪声可能会产生意料之外的结果，为什么？负一。取，所以就表示数组的最后一个元素。我们不希望出现这种情况。

展开

我来说两句

0 条评论

登录后参与评论

作者

不可言诉的深渊

【合辑】《Python 机器学习基础教程》演示视频_已获出版社授权

（25/47）

24分48秒

第 1 章引言（1）

7.3K44

55分54秒

第 1 章引言（2）

6.1K9

6分12秒

第 1 章引言（3）

53分35秒

第 1 章引言（4）

3.4K8

28分33秒

第 2 章监督学习（1）

3K3

52分48秒

第 2 章监督学习：k 近邻

3.4K2

57分13秒

第 2 章监督学习：线性模型（1）

1时8分

第 2 章监督学习：线性模型（2）

37分11秒

第 2 章监督学习：朴素贝叶斯分类器

46分27秒

第 2 章监督学习：决策树

2.2K1

31分24秒

第 2 章监督学习：决策树集成

7171

36分15秒

第 2 章监督学习：核支持向量机（1）

50分55秒

第 2 章监督学习：核支持向量机（2）

1.2K0

30分16秒

第 2 章监督学习：神经网络（1）

1K0

42分38秒

第 2 章监督学习：神经网络（2）

1.1K0

1时1分

第 2 章监督学习（2）

42分12秒

第 3 章无监督学习与预处理（1）

45分52秒

第 3 章无监督学习与预处理：主成分分析（1）

8700

34分54秒

第 3 章无监督学习与预处理：主成分分析（2）

32分42秒

第 3 章无监督学习与预处理：非负矩阵分解

110

15分55秒

第 3 章无监督学习与预处理：用 t-SNE 进行流形学习

1.2K0

23分30秒

第 3 章无监督学习与预处理：k 均值聚类（1）

1.2K0

15分48秒

第 3 章无监督学习与预处理：k 均值聚类（2）

6600

23分14秒

第 3 章无监督学习与预处理：凝聚聚类

1.2K0

11分57秒

第 3 章无监督学习与预处理：DBSCAN

25分23秒

第 3 章无监督学习与预处理（2）

38分30秒

第 3 章无监督学习与预处理（3）

5分17秒

第 3 章无监督学习与预处理（4）

32分31秒

第 4 章数据表示与特征工程（1）

20分16秒

第 4 章数据表示与特征工程（2）

26分39秒

第 4 章数据表示与特征工程（3）

40分50秒

第 4 章数据表示与特征工程（4）

11分56秒

第 4 章数据表示与特征工程（5）

1.2K0

38分40秒

第 5 章模型评估与改进（1）

18分42秒

第 5 章模型评估与改进（2）

1.2K0

34分43秒

第 5 章模型评估与改进（3）

7分14秒

第 5 章模型评估与改进（4）

37分1秒

第 5 章模型评估与改进（5）

1.2K0

55分53秒

第 5 章模型评估与改进（6）

9660

29分27秒

第 5 章模型评估与改进（7）

29分14秒

第 6 章算法链与管道（1）

16分48秒

第 6 章算法链与管道（2）

27分3秒

第 7 章处理文本数据（1）

16分43秒

第 7 章处理文本数据（2）

7分45秒

第 7 章处理文本数据（3）

1.3K1

15分22秒

第 7 章处理文本数据（4）

26分7秒

第 8 章全书总结

第 3 章无监督学习与预处理：DBSCAN原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第 3 章 无监督学习与预处理：DBSCAN原创

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第 3 章无监督学习与预处理：DBSCAN原创