Scikit-learn应用指南：监督学习第2部分-回归分析

文章来源：企鹅号 - Datartisan数据工匠

课程简介

回归学习算法和分类学习算法都属于监督学习，两者的区别在于输出变量的类型，回归是定量输出（或者说是连续变量预测），分类是定性输出（或者说是离散变量预测）。回归学习算法应用十分广泛，比如预测房价、未来的天气情况等。本节将介绍如何用回归学习算法来预测一个连续值，以及如何进行评估等。

学习目标

了解回归学习算法的工作原理

了解线性回归与k近邻回归

了解回归与分类的区别

在回归中，我们尝试预测一个连续的输出变量 -- 与之前分类例子中所预测的定类变量相反。

以具有一个特征维度（解释变量）和一个目标变量的简单案例开始。我们先创建一个带有一些噪音的正弦曲线的数据集：

1.线性回归

将要介绍的第一个模型就是所谓的简单线性回归模型。在这里，我们想要通过这些数据来拟合出一条直线，这是因为：

最简单的模型之一就是线性模型，它只是简单地试图预测这些数据为一条线。找到这样的一条线的一种方法是线性回归 (也称为[普通最小二乘法(OLS)]回归(https://en.wikipedia.org/wiki/Ordinary_least_squares)。线性回归的接口和之前的分类器完全一样，只是这个 y 现在包含浮点值，而不是类别。

正如我们知道的，scikit-learn 的 API 需要我们提供一维数组形式的目标变量（y）；希望样本（X）表示成一个二维数组 -- 即使它可能只包含1个特征。因此，我们将一维 x NumPy数组转换为一个具有2个轴的 X 数组：

发表于: 2018-04-032018-04-03 08:00:52
原文链接：http://kuaibao.qq.com/s/20180403B07LYZ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Scikit-learn应用指南：监督学习第2部分-回归分析

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐