00:01
3.4.3用TS进行流行学习。虽然PC通常是用于变换数据的首选方法,使你能够用散点图将其可视化,但这一方法的性质先旋转,然后减少方向,限制了其有效性,正如我们在wild的数据集label faces的散点图中所看到的那样。有一类用于可视化的算法叫做流行学习算法many for learning,它允许进行更加复杂的映射,通常也可以给出更好的可视化。其中特别有用的一个就是TSNE算法。流行学习算法主要用于可视化,因此很少用来生成两个以上的新特征。其中一些算法包括TSNE计算训练数据的一种新表示,但是它不允许变换新的数据。这意味着这些算法不能用于测试集,更确切的说,它只能用于变换。
01:04
训练数据流行学习对探索性数据分析是很有用的。但如果最终目标是监督学习的话。则很少会去使用T背后的思想是找到数据的一个二维表示,尽可能的保持数据点之间的距离。TS首先给出每个数据点的随机二维表示。然后尝试。让在原始空间中距离较近的点更加的靠近原始空间中相距较远的点。更加的远离。P重点关注距离较近的点,而不是保持距离较远的点之间的距离。换句话说,它试图保存那些表示哪些点比较靠近的信息。我们将对S论包含的一个手写数据集应用T流行学习算法。
02:08
注意不要与更大的M数据集弄混。在这个数据集中,每个数据点都是零到九之间手写数字的一张八乘八的灰度图像。
03:52
这一幅图对应数字零,这一幅图对应数字一,依此类推。
04:00
我们用PC。将数据降到二维。并进行可视化。我们对前两个主成分作图,并按照类别对数据点着色。首先,我们需要构建一个PC模型。
08:45
我们需要将数据实际绘制成文本。而不是简单的三点。
11:10
实际上,这里我们用每个类别对应的数字作为符号来显示每个类别的位置。利用前两个主成分。可以将数字。064。相对较好的分开,尽管仍然有重叠,大部分其他数字都大量重叠在了一起。我们将应用于同一个数据集,并对结果进行比较。由于TSNE不支持变换新数据,所以TS类没有transform方法,我们可以调用fit transform方法来代替。它会构建模型,并立刻返回变换之后的数据。
15:07
的结果非常的棒。所有类别都被明确的分开,数字一和九被分成几块,但大多数类别都形成一个密集的组。要记住这种方法,它并不知道类别的标签,它完全就是无监督的,但它能够找到数据的一种二维表示,仅根据原始空间中数据点之间的靠近程度,就能够将各个类别明确的分开。TS算法有一些调节参数,虽然默认参数的效果通常就很好,你可以尝试修改。To。和early exag这两个参数,但作用一般很小。
我来说两句