00:01
继续上次的内容,看到书上150页。三在人脸数据集上比较算法。我们将K均值DBSC和凝聚聚类算法应用于wild数据集中的label faces,并查看他们是否找到了有趣的结构。我们将使用数据的特征连表示。它又包含100个成分的PCA。Y等于生成。我们之前见到与原始像素相比。这是对人脸图像的一种语义更强的表示,它的计算速度也更快。这里有一个很好的练习,就是在原始数据上运行后面的代码,不要使用PCA,并观察你是否能找到类似的错。看到用DBSC分析人脸数据集,我们首先应用刚刚讨论过的DBSC。
02:04
我们看到所有返回的标签都是负一,因为所有数据都被DBSC标记。为了噪声,我们可以改变两个参数来改进这一点。第一,我们可以增大EPS,从而扩展每个点的领域,第二,我们可以减小minimum symbols。从而将。点的数量更小的一组点视为醋。我们首先尝试改变minimum symbols。即使仅考虑由三个点构成的组,所有点也被标记为噪声。因此我们需要增大EPS。
03:19
使用更大的EPS,在这里是15,我们只得到了单一促和噪声点。我们可以利用这一结果找出噪声相对于其他数据的形状。为了进一步理解发生的事情,我们查看有多少点是噪声,有多少点在库内。
05:08
噪声点非常的少,只有32个。接下来我们查看前面27个招生点。
06:58
我们可以猜测它们被标记为噪声的原因。
07:06
这一幅图像。显示一个人正在用玻璃杯喝水。还有人带帽子的图像。还有这里人脸前面有一只手。其他图像都包含奇怪的角度,或者太近或者太宽的一个剪切。这种类型的分析尝试找出奇怪的那一个被称为异常值,检测outlier detection。如果这是一个真实的应用,那么我们可能会尝试更好的裁切图像,以得到更加均匀的数据。对于照片中的人,有的带帽子,有的喝水,有的。在前面。放着手。我们能做的事情很少,但需要知道他们是数据中存在的问题。我们应用任何算法都需要解决这些问题。
08:00
如果我们想要找到的,想要找到更有趣的醋,而不是一个更大的醋,那么需要将EPS设置的更小,取值在15和0.5默认值之间。我们来看一下EPS不同取值对应的结果。
10:11
对于较小的EPS,所有点都被标记为噪声。ES等于七,我们得到许多噪声点。和许多较小的醋。EPS等于九,我们仍然得到许多的噪声点。但我们得到了一个较大的数和一些较小的数。从EPS等于十一开始,我们仅得到一个较大的数和噪声。有趣的是。较大的醋从来没有超过一个,最多有一个较大的醋包含大多数点,还有一些较小的醋。这表示数据中没有两类或三类非常不同的人脸图像,而是所有人脸的图像或多或少的都与其他的人脸图像具有相同的相似度或者不相似度。
11:05
EPS等于七。结果看起来很有趣,它有许多较小的数,我们可以通过将13个较小的醋中的点全部可视化。来深入研究这么一个聚类。
14:37
有一些醋对应于脸部非常不同的人。比如。沙龙。或者小泉。在每个处内,人脸方向和面部表情也是固定的,有些处包含多个人的面孔,但他们的方向和表情都相似。
15:09
这就是我们将DB干算法应用于人脸数据集的分析结论。如你所见,我们这里进行了人工分析。不同于监督学习中基于R方分数或精度的更为自动化的搜索方法,下面我们将继续应用K均值和凝聚聚类。用K均值分析人脸数据集。我们看到利用DBSC无法创建多余一个较大的醋,凝聚聚类和K均值更可能创建均匀大小的醋。但我们需要设置出的目标个数。我们可以将错误的数量设置为数据集中的已知人数,虽然无监督聚类算法不太可能完全找到他们。相反,我们可以首先设置一个比较小的醋的数量,比如十个。这样我们可以分析每个处。
17:13
如你所见,K均值聚类将数据划分为大小相似的醋。其大小在。89。到324之间。这与DBSC的结果非常不同,我们可以通过将促中心可视化来进一步分析K均值的结果。由于我们是在PC生成的表示中进行聚类,因此我们需要使用pc.transform将促中心旋转回到原始空间并做可视化。
19:17
K均值找到的簇中心是非常平滑的人脸,这并不奇怪。因为每个初中心都是。89。到324张人脸的图像的平均,使用降维的PC表示可以增加图像的平滑度。聚类,似乎捕捉到人脸的不同方向、不同表情。这一张图,也就是第二张图。似乎显示的是一张笑脸。下面给出更详细的视图,我们对每个簇中心给出簇中五张最典型的图像。该簇中。
20:07
与簇中心距离最近的图像与五张最不典型的图像,该簇中与簇中心距离最远的图像。
21:02
这一行。证实了。我们认为。第二个。是笑脸的直觉也证实了其他处中方向的重要性。不过非典型的点与处中心不太相似,而且他们的分配似乎有些随意,就可以归因于以下事实,K均值对所有数据点进行划分,不像DBSKY那样具有噪声点的概念。利用更多数量的醋算法可以找到更细微的区别,但添加更多的醋会使人工检查变得更加困难。关于用K均值分析人脸数据集就到这里,我们看到用凝聚聚类分析人脸数据集,下面我们来看一下凝聚聚类的结果。
23:35
凝聚聚类生成的也是大小相近的醋。其大小在18。到660。之间。这比K均值生成的醋更不均匀,但比DBSC生成醋要更加均匀。我们可以通过AI来度量凝聚聚类和K均值给出的两种数据划分是否相似。
24:36
AI只有0.1,说明labels egg和labels KM这两种聚类的共同点很少。这并不奇怪,原因在于以下事实。对于K均值远离促中心的点似乎没有什么共同点。下面我们可能会想要绘制树状图,我们将限制图中树的深度。因为如果分支。
25:06
非常非常的大。大到几千个数据点,图像将密密麻麻的无法阅读。
26:08
嗯。
27:02
要想创建十个簇?我们在顶部有十条竖线的位置,将竖横切。在书上143页图三-36。所示的玩具数据的树状图中,你可以从分支的长度中看出两个或三个素。就可以很好的划分数据。对于人脸数据而言。似乎没有非常自然的切割点。有一些分支代表更为不同的组,但似乎没有一个特别合适的出的数量。这并不奇怪,因为DB scan的结果是试图将所有的点都聚类在一起。
28:07
我们尝试将十个醋可视化,正如之前对K均值所做的那样。请注意,在凝聚聚类中没有促中心的概念,虽然我们计算平均值。我们只是给出了每个错的前几个点。我们在第一张图像的左侧给出。每个簇中的点的数量。
31:49
虽然某些醋似乎具有语义上的主题,但许多醋都太大。而实际上很难是均匀的。
32:01
为了得到更加均匀的醋,我们可以再次运行算法。这次使用40个醋,并挑选出一些特别有趣的醋。
38:08
这里聚类挑选出的似乎是。深色皮肤且微笑,有领子的衬衫,微笑的女性萨达姆和高额头。如果进一步详细分析,我们还可以利用树状图找到这些高度相似的醋。
我来说两句