00:01
3.5.5聚类方法小结本节的内容表明,类的应用与评估是一个非常定性的过程,通常在数据分析的探索阶段很有帮助。我们学习了三种聚类算法,K均值DBSC和凝聚聚类,这三种算法都可以控制聚类的力度。Granularity。K均值和凝聚聚类允许你指定想要的醋的数量,而DBSC允许你用EPS参数定义接近程度,从而间接影响醋的大小。三种方法都可以用于大型的现实世界数据集,都相对容易理解。也都可以聚类成多个醋。每种算法的优点稍有不同,K均值可以用醋的平均值来表示,醋。它还可以被看作是一种分解的方法,每个数据点都有其粗中心表示。DBSC可以检测到没有分配任何处的噪声点,还可以帮助自动判断醋的数量。与其他两种方法不同,它允许醋具有复杂的形状。正如我们在出木子的粒子中所看到的那样,DBSC有时会生成大小差别很大的数,这可能是它的优点,也可能是它的缺点。
01:22
凝聚聚类可以提供数据的可能划分的整个层次结构,可以通过树状图轻松的查看3.6小结与展望。本章介绍了一系列无监督学习算法,可用于探索性数据分析和预处理。找到数据的正确表示对于监督学习和无监督学习的成功都至关重要。预处理和分解方法在数据准备中具有重要作用。分解、流行学习和聚类都是加深数据理解的重要工具,在没有监督信息的情况下,也是理解数据的仅有的方法。
02:02
即使是在监督学习中,探索性工具对于更好的理解数据性质也很重要。通常来说,很难量化无监督算法的可有用性。但这不应该妨碍你使用他们来深入理解数据。学完这些方法,你就已经掌握了机器学习从业者每天使用的所有必要的学习算法。我们建议你在S论中包含的二维玩具数据和现实世界数据集,比如iris和cancer数据集上尝试聚类和分解方法。估计器接口小结,我们简要回顾一下第二章和第三章介绍的API在论中的所有算法,无论是预处理、监督学习还是无监督学习算法都被实现为类,这些类在论中叫做估计性estimate。
03:01
为了应用算法,你首先需要将特定类的对象实例化。就像这样,估计器内包含算法,也包含利用算法从数据中学到的模型。在构建模型对象时,你应该设置模型的所有参数。这些参数包括正则化、复杂度控制、要找到的错误的数量等等。所有估计器都有fit方法用于构建模型。fit方法要求第一个参数总是数据X,用一个朗派数组或散派系数矩阵表示。
04:05
其中每一行代表一个数据点,数据X总被假定为具有连续值浮点数的囊派数组或塞派系数矩阵。监督算法还需要有一个Y参数,它是一维的朗派数组。包含回归或分类的目标值及已知的输出标签或响应。在论中运用学到的模型主要有两种方法。要想创建一个新输出形式,比如Y的预测,可以用predict方法,要想创建输入数据,X的一种新表示,可以用transform方法。书上160页表三杠一汇总了predict方法和transform方法的使用场景。此外,所有监督模型都有score。X test y test方法可以评估模型。在表三杠一中,X train和y train指的是训练数据和训练标签,而X test和y test指的是测试数据和测试标签。当然,如果适用的话。
我来说两句