用R语言作上海房价预测模型

考虑到商品房经济始于1998年,且可供查找的数据截止到2011年,故本文的数据来源于1998-2011年的《上海统计年鉴》和国家统计局。在本文中主要讨论影响上海商品房房价的因素及各个因素对于房价的影响作用,考虑到房地产不同于一般的消费品,它不仅提供居住的功能,带来收租收益,发生价值增值,而且对人的行为有重要的影响,因此,在进行预测自由贸易下的房价时,本文主要从人均生产总值、人均可支配收入、商品零售价格指数、常住人口、住房竣工面积、住宅投资总额、居民居住消费价格指数7个方面来考虑对于商品房房价的影响。

本文在建模型时,先通过R软件拟合商品房房价与时间的非线性回归模型,再利用7个自变量与因变量商品房价多元线性关系,并进行逐步回归,得到最优回归模型。最后将时间的非线性回归模型与影响因素的多元线性模型预测值进行比较,给出2012、2013、2014年的房屋价格,其中2012年与2013年可与实际进行对比,进而评价模型的好坏。

数据准备

本文从研究影响房地产价格的因素入手,鉴于国家在1998年出台停止福利分房,进而促进了的商品房的自由贸易,故数据始于1998年,且上海统计年鉴可查的到2011年年鉴,故通过综合国家统计局及上海市年鉴1998年——2011年的房地产相关数据,最后筛选出如下可能影响未来房地产价格走势的变量,本文取定七个因素:

x1:人均生产总值;

x2:人均可支配收入;

x3:商品零售价格指数;

x4:常住人口;

x5:住房竣工面积;

x6:住宅投资总额;

x7:居民居住消费价格指数;

xm: 上海商品房房产均价

数据如下:

建立非线性模型

首先对y画出关于时间t的散点图,对应的R语言程序为:

X=read.csv("D:\\shanghaifangjia.csv")

attach(X)

plot(t,y)

得到图一:

R语言程序为:

y1=log(ym)

a1=log(a)

reg=lm(y1~t)

summary(reg)

得到结果如下:

R语言程序为:

a1= -3.281e+02

a=exp(a1)

b= 1.681e-01

yy=a*exp(b*t)

plot(t,ym)

lines(t,yy)

得到如图:

回归方程的检验

模型的建立

模型的求解

得到散点图如下:

利用程序cor(X)得到相关矩阵并整理得:

y

t 0.9195056

y 1.0000000

x1 0.9533447

x2 0.9792964

x3 0.6385694

x4 0.9490735

x5 -0.3246709

x6 0.9005302

x7 -0.1598100

得到如下的七个结果:

首先对七个变量建立多元回归方程的R语言程序为:

reg1=lm(ym~x1+x2+x3+x4+x5+x6+x7)

summary(reg1)

得到如下结果:

将结果整理得:

估计值

标准差

t值

P值

β0

-4.725e+04

1.975e+04

-2.393

0.05384

β1

-4.246e-01

2.239e-01

-1.897

0.10665

β2

1.259e+00

3.204e-01

3.928

0.00773 **

β3

5.876e+00

2.104e+00

2.792

0.03148 *

β4

9.312e+00

1.086e+01

0.857

0.42413

β5

1.630e-01

6.739e-01

0.242

0.81691

β6

3.758e+00

1.788e+00

2.102

0.08031

β7

8.121e+01

8.101e+01

1.003

0.35479

得到如下结果:

得到如下结果:

得到如下结果:

对结果整理得:

估计值

标准差

T值

P值

β0

-3.136e+04

3.535e+03

-8.873

9.59e-06 ***

β1

-2.538e-01

5.395e-02

-4.705

0.00111 **

β2

1.126e+00

1.287e-01

8.750

1.07e-05 ***

β3

6.916e+00

8.896e-01

7.774

2.78e-05 ***

β6

4.538e+00

9.577e-01

4.738

0.00106 **

模型的总结

指数方程预测房价

三年的预测值为:

2012

2013

2014

24765.33

29298.75

34662.03

多元线性回归预测房价

自变量

增长率

2012年

2013年

2014年

人均生产总值

10%

90816

99897.6

109887.4

人均可支配收入

10%

39853

43838.3

48222.1

商品零售价格指数

2%

4369.7

4457.1

4546.2

住宅投资总额

7%

1501.35

1606.44

1718,89

带入回归方程,则可得多元线性方程预测的三年房价的值为:

2012

2013

2014

27499.35

30763.24

34245.12

预测模型的对比评价

通过收集实际数据,与两个预测模型进行对比,可对预测的结果进行评价得到结果如下:

两个模型预测房价与实际房价的对比:

2012

2013

2014

实际房价

25691

29537(截止到5月)

时间指数模型预测值

24765.33

29298.75

34662.03

与实际的偏差比例

3.6%

6.6%

多因素回归模型预测值

27499.35

30763.24

34245.12

与实际的偏差比例

6.5%

4.2%

则可知,指数模型和多因素线性回归模型均得到较好的预测值,预测偏差均非常小。根据房价时间模型,房价将随着时间呈指数增长之势,因此必须出台相关政策,有效抑制房价增长。根据多元线性模型,房价与各个自变量的正负相关性就是各个变量前系数的正负。要抑制房价的增长,可以通过使系数为正的自变量增长率减少,系数为负的自变量增长率增加来达到目的。比如可以通过中央人民银行对于贷款利率的增加,减少投资者的过度投机行为,使土地拍卖价格降低,直接降低房屋成本,同时贷款利率的增加减少了房地产商的贷款,使房地产商资金面收紧,迫使其降价卖出现有房屋,已达到回笼资金偿还原来贷款的目的。

由于某些数据的缺少,有些数据从网上搜索得到,可能会存在不准确的情况,与现实数据可能有所差异,预测模型仅供参考。


原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-08-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

五类受自然启发的AI算法

摘要: 本文主要讲解了受自然启发的五类AI算法以及各自的实际用例:神经网络、遗传算法、群集集体智慧、强化学习、人体免疫。 ? 搜索/寻路算法 搜索算法...

3084
来自专栏新智元

【名家】王培:仅靠概率论的机器学习无法实现通用智能

【新智元导读】王培认为,贝叶斯解释在通用智能系统中适用性有限,因此仅靠概率论的机器学习方法并不能让计算机拥有可比人脑的智能,概率论虽然是个好东西,但这条路并不能...

2483
来自专栏量化投资与机器学习

3招打破机器学习工程师的边界

对,就是数学。掌握了数学这个机器学习的底层基础,不仅可以加深对算法的理解,还能在模型优化阶段更加游刃有余。

593
来自专栏新智元

谷歌与全球顶级医学院联手,Jeff Dean等扛鼎首篇电子病历论文,康奈尔大学王飞解读

作者:王飞,康奈尔大学威尔医学院助理教授 编辑:闻菲 【新智元导读】本周谷歌在ArXiv上公开了一篇众人期待已久的论文,也很可能是谷歌在电子病历建模分析方面的首...

36110
来自专栏量子位

牛津教授吐槽DeepMind心智神经网络,还推荐了这些多智能体学习论文

在Machine Theory of Mind中,DeepMind提出了“机器心智理论网络”ToMnet,让AI智能体能理解自己和周围智能体的情绪、意图、欲望等...

862
来自专栏人工智能头条

语音识别现状与工程师必备技能

1861
来自专栏FreeBuf

基于时间和地域构建一个网络诈骗形势模型

电信诈骗,网络诈骗层出不穷,花样翻新,是当前公安部重点打击的对象。本文从网络中爬取相关的新闻,通过对时域和数量的统计与分析,实现对网络诈骗模型中时间参量的优化,...

2157
来自专栏PPV课数据科学社区

北大数据分析老鸟写给学弟们一封信

? 以下是我在近三年做各类计量和统计分析过程中感受最深的东西,或能对大家有所帮助。当然,它不是ABC的教程,也不是细致的数据分析方法介绍,它只 是“总结”和“...

2574
来自专栏量化投资与机器学习

【独家前沿策略】机器学习应用投资组合系列(代码+论文)

南洋理工大学计算机系和米兰理工数据挖掘研究组的科学家发现,虽然公众情绪已经被认为是股市预测的关键因素,但近十年来在利用公共情绪来解决资产配置问题的理论方面,学术...

932
来自专栏量子位

世界杯押注还得看技术流,这个预测AI把赔率也算上了

432

扫码关注云+社区