Scikit-learn应用指南:监督学习第2部分-回归分析

课程简介

回归学习算法和分类学习算法都属于监督学习,两者的区别在于输出变量的类型,回归是定量输出(或者说是连续变量预测),分类是定性输出(或者说是离散变量预测)。回归学习算法应用十分广泛,比如预测房价、未来的天气情况等。本节将介绍如何用回归学习算法来预测一个连续值,以及如何进行评估等。

学习目标

了解回归学习算法的工作原理

了解线性回归与k近邻回归

了解回归与分类的区别

在回归中,我们尝试预测一个连续的输出变量 -- 与之前分类例子中所预测的定类变量相反。

以具有一个特征维度(解释变量)和一个目标变量的简单案例开始。我们先创建一个带有一些噪音的正弦曲线的数据集:

1.线性回归

将要介绍的第一个模型就是所谓的简单线性回归模型。在这里,我们想要通过这些数据来拟合出一条直线,这是因为:

最简单的模型之一就是线性模型,它只是简单地试图预测这些数据为一条线。找到这样的一条线的一种方法是线性回归 (也称为[普通最小二乘法(OLS)]回归(https://en.wikipedia.org/wiki/Ordinary_least_squares)。 线性回归的接口和之前的分类器完全一样,只是这个 y 现在包含浮点值,而不是类别。

正如我们知道的,scikit-learn 的 API 需要我们提供一维数组形式的目标变量(y);希望样本(X)表示成一个二维数组 -- 即使它可能只包含1个特征。因此,我们将一维 x NumPy数组转换为一个具有2个轴的 X 数组:

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180403B07LYZ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券