机器学习经典算法(五)回归实践 房屋售价预测回归

faceSchool

经典算法(五)

回归实践(中)

5

上次我们主要配置了相关环境

并构建了房屋大小和房屋售价的散点图

这次我们

将构建一个房屋大小和房屋售价回归模型

之前有同学反应安装 的问题 由于安装环境不同

问题也千奇百怪

作为windows10用户,安装graphlab create着实不是一件容易的事 愚钝如我,安装了半天

推荐大家按照官网的教程来,首先下载anaconda,不要用graphlab create launcher一键式安装,这个由于graphlab的下载服务器位于国外,速度极慢,而且一旦中间断了是不能断点续传的,只能重下

推荐按照官网的命令行方式安装,如果下载没网速的同学可以开4G热点,这个有时候也有用

python 回归实践

构建房屋预测回归模型

分离出训练集,测试集

被用来去拟合模型的数据叫做训练集

那些作为真实预测的替代叫做测试集

trian_data , teat_data = salse.random_split {.8, seed=0}

注释:

我们运用了一个random_split函数 ,

该函数就是把我们的训练集可以分成

训练集和测试集

( 随机划分 )

{ }中第一个参数 0.8 表示我们把sales 这个数据里80%的数据划分成训练集

剩下20% 随机划分为测试集

接着,我们可以定义一个种子 , 令seed = 0

也可不定义该种子。但如果不定义种子

在下次运行时由于随机划分会得到不同的结果

构建房屋预测回归模型

构建实际的回归模型

sqft_model = graphlab.linear_regression.create(train_data,target='price',features='[sqft_living]')

构建房屋预测模型

我们使用graphlab的linear函数

加上训练集+目标y+特征值x这些个参数

来构建回归模型

结果:

我们可以看到这个回归模型运用了16480个训练集

采用了一个特征

两个参数

用牛顿方法来训练的

评估简单回归模型

查看测试数据集的均值:

结果:

评估模型;

print sqft_model.evaluate{ test_data }

可见这个误差不小

使用图形化查看

1.

使用图形化查看

>>import matplotlib.pyplot as plt

这句的意思是 引入了matplotlib.pyplot 库

并把它用plt 表示

2.

将图画在本网页

>>% matplotlib inline

plt.plot

定义好X和Y轴,使用点号表示这个(x,y)

定义了两个函数,第一个XY表示原始测试集的伞点图,我们用点表示;

然而,我们的第二个XY表示我们的回归方程预测出来的值,用短横线表示

得到该图像

下一次我们将 探索数据中的其他特征

to be continued

我思故我在

知识电量不足5%

请立即充电

People always say that it's too late. However, in fact, now is the best appropriate time. For a man who really wants to seek for something, every period of life is younger and timely.

一起分享学习的点滴

扫码加入机器学习小组(为保证学习群质量请先加管理员经验证后自动加群)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180722G19AO100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券