专栏首页AI机器思维波士顿房价预测——回归分析案例(献给初学者)

波士顿房价预测——回归分析案例(献给初学者)

作者Nature

出品AI机器思维

人类生活的现实社会经常遇到分类与预测的问题,目标变量可能受多个因素影响,根据相关系数可以判断影响因子的重要性。正如一个病人得某种病是多种因素影响造成的。

房价的高低也是受多个因素影响的,如房子所处的城市是一线还是二线,房子周边交通方便程度如通不通地铁,房子周边学校和医院等,这些都影响了房子的价格。

医学领域根据自变量以及某个阈值判断病因归属。生物领域根据父辈的基因经过回归分析判断对子辈的影响。

今天给大家通过案例讲讲回归分析,回归分析在经济、社会学、医学、生物学等领域得到了广泛的应用,这种技术最早可以追溯到达尔文(Charles Darwin)时期。

达尔文的表弟Francis Galton致力于研究父代豌豆种子尺寸对子代豌豆尺寸的影响,采用了回归分析。回归分析对人体健康研究也可以重要,病因分析。19世纪高斯系统地提出最小二乘估计,从而使回归分析得到蓬勃发展。

目前回归分析的研究范围可以分为如下几个部分组成:

线性回归:一元线性回归、多元线性回归和多个因变量与多个自变量的回归。

回归诊断:通过数据推断回归模型基本假设的合理性、基本假设不成立时对数据的修正、回归方程拟合效果的判断以及回归函数形式的选择。

回归变量的选择:根据什么标准选择自变量和逐步回归分析方法。

参数估计方法:偏最小二乘回归、主成分回归和岭回归。

非线性回归:一元非线性回归、分段回归和多元非线性回归。

定性变量的回归:因变量含有定性变量和自变量含有定性变量。

现实中常用的回归分析是线性回归、逻辑回归、多项式回归和岭回归。

本节以线性回归案例讲解,以波士顿房价数据集为线性回归案例数据,进行模型训练,不讲过多理论,理论大家可以自己去看资料,到处都是理论材料。

波士顿房价数据说明:此数据源于美国某经济学杂志上,分析研究波士顿房价( Boston HousePrice)的数据集。数据集中的每一行数据都是对波士顿周边或城镇房价的情况描述,下面对数据集变量说明下,方便大家理解数据集变量代表的意义。

CRIM: 城镇人均犯罪率 ZN: 住宅用地所占比例 INDUS: 城镇中非住宅用地所占比例 CHAS: 虚拟变量,用于回归分析 NOX: 环保指数 RM: 每栋住宅的房间数 AGE: 1940 年以前建成的自住单位的比例 DIS: 距离 5 个波士顿的就业中心的加权距离 RAD: 距离高速公路的便利指数 TAX: 每一万美元的不动产税率 PTRATIO: 城镇中的教师学生比例 B: 城镇中的黑人比例 LSTAT: 地区中有多少房东属于低收入人群 MEDV: 自住房屋房价中位数(也就是均价)

首先对数据分析,处理特殊异常值,然后才是模型和评估,并应用模型进行预测。

1.首先导入数据集,对数据进行分析

程序运行后结构现实特征变量如下:

对上面程序加入如下语句分析数据集数据样本总数,与特征变量个数:

程序运行后显示波士顿数据集506个样本,13个特征变量

我们根据经验也可以看到,房价的高低在中国具体的房价就有太多维度了,比方说学区房、超市、菜场、高铁、机场、地铁、就业等等,而波士顿房价给出了13个特征维度变量预测房价,和中国比还是有很大差距的。国情不一样也影响房价。

继续对上面数据分析,查看前五条数据,看下这13个变量数据情况:

程序运行后结果显示前5条数据如下:

2.对自变量进行特征分析,并画出散点图,分析因变量与自变量的相关性,把不相关的数据剔除。

程序如下:

程序运行后结果显示如下:

CRIM: 城镇人均犯罪率

ZN: 住宅用地所占比例

INDUS: 城镇中非住宅用地所占比例

CHAS: 虚拟变量,用于回归分析

NOX: 环保指数

RM: 每栋住宅的房间数

AGE: 1940 年以前建成的自住单位的比例

DIS: 距离 5 个波士顿的就业中心的加权距离

RAD: 距离高速公路的便利指数

TAX: 每一万美元的不动产税率

PTRATIO: 城镇中的教师学生比例

B: 城镇中的黑人比例

LSTAT: 地区中有多少房东属于低收入人群

经过上面散点图的分析,可以看到数据异常的变量需要特殊处理,根据散点图分析,房屋的’RM(每栋住宅的房间数)’,‘LSTAT(地区中有多少房东属于低收入人群)’,'PTRATIO(城镇中的教师学生比例)’特征与房价的相关性最大,所以,将其余不相关特征剔除。

二、任务介绍 1、通过数据挖掘对影响波士顿房价的因素进行分析。 2、搭建一个波士顿房价预测模型。

本案例我们以每栋住宅的房间数RM研究与房价的关系。

程序如下:

程序执行后模型相关系统如下:

图形显示如下:

通过分析可以看出住宅平均房间数与最终房价一般成正相关。

对上面程序改造,我们也可以分析其他特征变量对房价的影响。具体大家可以根据案例改造学习。

文章分享自微信公众号:
AI机器思维

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

作者:Nature
原始发表时间:2020-01-06
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 回归算法预测波士顿地区房价

    正规方程(LinearRegression) 梯度下降(SGDRegressor) 适用于小规模数据集特征数量<100K 适用于大规模数据集>...

    zhaoolee
  • 基于RandomForestRegressor的波士顿房价回归预测

    2018年8月27日笔记 sklearn官方英文用户使用指南:https://sklearn.org/user_guide.html sklearn翻译中文...

    潇洒坤
  • 深度学习回归案例:房价预测

    本文的案例讲解的是机器学习中一个重要问题:回归问题,它预测的是一个连续值而不是离散的标签。

    皮大大
  • 【深度学习入门案例】波士顿房价预测

    做个简单介绍:三者的关系如 图1 所示,即:人工智能 > 机器学习 > 深度学习。

    川川菜鸟
  • 机器学习系列一:使用线性回归预测波士顿房价

    数据集不大,只有506条记录,13个特征,没有缺失值,MEDV就是需要我们预测的。

    明月AI
  • 机器学习实战——搭建回归树模型,预测波士顿房价

    所谓的回归树模型其实就是用树形模型来解决回归问题,树模型当中最经典的自然还是决策树模型,它也是几乎所有树模型的基础。虽然基本结构都是使用决策树,但是根据预测方法...

    TechFlow-承志
  • 爱数科案例 | 基于线性回归的加州房价预测

    加州位于美国西南部,是美国经济较为发达、人口较为密集的行政区之一。加州的房价受到房龄、人口规模、地理位置等多种因素影响。本案例使用加州房价数据集,首先进行数据预...

    数据科学人工智能
  • Kaggle初探--房价预测案例之数据分析

    本文数据来源kaggle的House Prices: Advanced Regression Techniques大赛。

    zhuanxu
  • 经典案例 | 多元线性回归模型预测房价(附代码与数据)

    style 和 neighborhood 与房价 price 是否有关联可以使用方差分析

    萝 卜
  • 项目实战一:利用Python实现Kaggle经典案例之波士顿房价预测

    欢迎来到王者荣耀(自带音效?)啊不,是小白入门大数据分析之项目实战第一篇?。本文主要介绍如何利用Python实现Kaggle经典比赛项目,波士顿房价预测问题(至...

    用户7569543
  • 客服中心优化案例分析(附下载)—献给在案例解决方面缺乏经验的初学者

    介绍 笔者写这篇文章主要是针对那些在案例解决方面缺乏自信的初学者,这将成为在面试中被拒的一个重要原因。如果你还在读这篇文章的话,笔者相信,你肯定已经做好了和我...

    灯塔大数据
  • 通过机器学习的线性回归算法预测股票走势(用Python实现)

    在本人的新书里,将通过股票案例讲述Python知识点,让大家在学习Python的同时还能掌握相关的股票知识,所谓一举两得。这里给出以线性回归算法预测股票...

    用户1153489
  • 线性回归和时间序列分析北京房价影响因素可视化案例

    我核心的想法是预测房价。然而,我不打算使用任何arima模型;相反,我将使用数据的特性逐年拟合回归。

    拓端
  • 快速入门Python机器学习(七)

    sklearn.linear_model.Lasso(alpha=1.0, fit_intercept=True, normalize=False, preco...

    小老鼠
  • 快速入门Python机器学习(八)

    sklearn.preprocessing.StandardScaler:通过去除均值和缩放单位方差来标准化特征

    小老鼠
  • 快速入门Python机器学习(六)

    5.2 岭(Ridge)回归、套索(Lasso)回归与弹性网络(Elastic Net)的基本概念

    小老鼠
  • 基于股票大数据分析的Python入门实战(视频教学版)的精彩插图汇总

    在我写的这本书,《基于股票大数据分析的Python入门实战(视频教学版)》里,用能吸引人的股票案例,带领大家入门Python的语法,数据分析和机器学习。

    用户1153489
  • 机器学习入门 5-10 线性回归的可解释性

    上面使用了波士顿房价的13个特征,通过在全部数据集上进行拟合,不进行train_test_split方法是因为此时我们并不需要验证模型的性能,只是对得到结果的系...

    触摸壹缕阳光

扫码关注腾讯云开发者

领取腾讯云代金券