首页
学习
活动
专区
圈层
工具
发布

写给开发者的机器学习指南(二)

Learning methods

在机器学习领域有两种主要的学习方式,即监督学习和无监督学习。当您想在您的应用程序中使用机器学习时,需要简要说明下,因为选择正确的机器学习方法和算法是一个重要但有时也是一个繁琐的过程。

Supervised learning

在监督学习中,你需要明确定义要使用的特征,以及您期望的输出。一个例子是基于身高和体重预测性别,这被称为分类问题。此外,您还可以使用回归预测绝对值。使用相同数据的回归的例子是基于性别和体重预测人的长度。一些监督算法只能用于分类或回归,例如K-NN。 然而,还存在可以用于这两种目的的支持向量机的算法。

Classification

在监督学习领域内的分类问题相对简单。给定一组标签,以及一些已经接收到正确标签的数据,我们希望能够预测尚未标记的新数据的标签。但是,在将数据视为分类问题之前,应该看看数据是什么样子的。如果数据中有一个清晰的结构,以便您可以轻松地绘制回归线,最好使用回归算法。 给定数据不适合回归线,或当性能成为一个问题,分类是一个很好的选择。

分类问题的一个例子是根据电子邮件的内容将电子邮件分为非垃圾(ham)或垃圾邮件。给定训练集中的电子邮件被标记为非垃圾(ham)或垃圾邮件,分类算法可以用于训练模型。 然后,该模型可用于预测未来的电子邮件是否是非垃圾(ham)或垃圾邮件。 分类算法的典型示例是K-NN算法。

Regression

与分类相比,回归更强大。这是因为在回归中,您预测的是实际值,而不是标签。让我们用一个简单的例子来解释一下:给定一个权重,高度和性别的表格,当给定一个权重和高度时,你可以使用K-NN来预测一个人的性别。 对于使用回归的相同数据集,您可以根据性别和相应的其他缺失参数来预测人的体重或身高。

Unsupervised learning

与监督相反的是使用无监督学习,您不能预先准确地知道输出。应用无监督学习的想法是在数据集中找到隐藏的底层结构。一个示例是PCA,您可以通过合并特征来减少特征的数量。这种组合是基于这些特征之间可能隐藏的相关性来进行的。无监督学习的另一个例子是K均值聚类。 K均值聚类背后的想法是在数据集中查找集合,以便以后可以将这些集合用于诸如监督学习的目的。

Principal Components Analysis (PCA)

主成分分析是一种在统计学中用于将一组相关列转换为一组较小的不相关列的技术,减少了问题的特征数量。这一较小的列集称为主成分。 这种技术主要用于探索性数据分析,因为它揭示了数据中的内部结构,这些数据不能通过眼睛查看数据找到。

然而,PCA的一个很大的弱点是数据中的异常值。 这些严重影响其结果,从而对数据预处理,可以消除大的异常值从而大大提高其性能。

为了清楚地了解PCA的想法,我们显示了与应用PCA后绘制的相同数据集相比,具有2维的点的数据集的绘图。

在左图上显示原始数据,其中每种颜色表示不同的类。很明显,可以从2维(X和Y)减少到1维,并仍然正确分类。 这是PCA优秀的地方。 使用PCA,根据每个数据点的原始维度计算新值。

在右侧的图中,您将看到对此数据应用PCA的结果。注意Y值,但这只是能够绘制数据并展现给你。 Y值对于所有值为0,因为只有X值由PCA算法返回。 还要注意,右图中的X的值不对应于左图中的值,这表明PCA不会“只丢弃”一个维度。

下一篇
举报
领券