前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >在郑州,你该买哪里的房子?

在郑州,你该买哪里的房子?

作者头像
数据社
发布2020-05-25 14:51:11
9K0
发布2020-05-25 14:51:11
举报
文章被收录于专栏:数据社数据社

 背景

某次和领导吃饭,无意中提到了房子的话题,说了几句自己的心得经验(虽然没有再次实操的资本),却给领导留下了深深的印象(领导,你不是又要在郑州置业了吧)。

前段时间一个老朋友也联系我咨询郑州房子的事情(难道就因为我在郑州吗?)。那朋友一连串问了我好几个为题,听说郑州现在房子降价了?现在该不该买?买这个XXX楼盘合适吗?

可是,我们是老朋友,你懂的。本着负责任的态度,今天我们来一块分析下郑州的房价,数据爬取自某房中介网站(我只是数据的搬运工,不对数据真实性负责哈)。

一、数据探索

爬取数据的代码已经上传全球最大同性交友网站,请star :https://github.com/qinchaofeng/zz_house_price_analysize/blob/master/zz_house_lj.py

首先我们来简单探索爬取的数据都有哪些内容:

代码语言:javascript
复制
df_gx = pd.read_excel("E:/code/python/file/高新区.xlsx",0,header = 0)
 
df_gx.head() 

爬取的时候分按照区域分的文件,先合并文件:

代码语言:javascript
复制
##读取爬虫数据
 
df_gx = pd.read_excel("E:/code/python/file/高新区.xlsx",0,header = 0)
 
df_eq = pd.read_excel("E:/code/python/file/二七区.xlsx",0,header = 0)
 
df_gc = pd.read_excel("E:/code/python/file/管城区.xlsx",0,header = 0)
 
df_gq = pd.read_excel("E:/code/python/file/航空港区.xlsx",0,header = 0)
 
df_hj = pd.read_excel("E:/code/python/file/惠济区.xlsx",0,header = 0)
 
df_jk = pd.read_excel("E:/code/python/file/经开区.xlsx",0,header = 0)
 
df_dq = pd.read_excel("E:/code/python/file/郑东新区.xlsx",0,header = 0)
 
df_zy = pd.read_excel("E:/code/python/file/中原区.xlsx",0,header = 0)
 
df_js = pd.read_excel("E:/code/python/file/金水区.xlsx",0,header = 0)
 


 
#增加区域标签
 
df_gx["区"]="高新区"
 
df_eq["区"]="二七区"
 
df_gc["区"]="管城区"
 
df_gq["区"]="航空港区"
 
df_hj["区"]="惠济区"
 
df_jk["区"]="经开区"
 
df_dq["区"]="郑东新区"
 
df_zy["区"]="中原区"
 
df_js["区"]="金水区"
 
#合并文件,查看数据量
 
df = df_gx.append(df_eq).append(df_gc).append(df_gq).append(df_hj).append(df_jk).append(df_dq).append(df_zy).append(df_js)
 
df.shape 

此次分析的数据共16个特征,11926条记录。

二、数据分析

每个区数据条数如下:

代码语言:javascript
复制
df['区'].value_counts()

可以看出,管城、中原两个区域的房子比较多,大概是因为两个区域有浓厚的生活气息,大家都知道中原区美食是相当多啊。另外经开区和航空港区的房子较少,两个都属于新开发的区域,港区距离郑州中心城区又更远一些。

郑东新区挂牌房子少,大概率是太贵了,我等屌丝买不起啊!

另外,买房的你还看什么,户型 ,户型不好了利用率低,屋子再小得有3个房间吧,要不来个亲戚还是没地方住。

代码语言:javascript
复制
df['房屋户型'].value_counts().head() 

嘿嘿嘿,果然3室的房子更多,现在市场上有很多小三室(90平以内),很适合刚需置业者的首选,年轻人打拼不易,慢慢来,大平层会有的,别墅也会有的……

还是得买南北通透的房子,不信你看。

买房最关心的应该就是房屋的价格,下面我们来看下每个区域的价格分布。

首先对原始数据进行处理,去掉单位,方便后续计算。

代码语言:javascript
复制
#去掉单位,转数字
 


 
df["单价"] = pd.to_numeric(df["单价"].str.replace("元/平米",""))
 
df["总价"] = pd.to_numeric(df["总价"].str.replace("万",""))
 
df["建筑面积"] = pd.to_numeric(df["建筑面积"].str.replace("㎡",""))
 
代码语言:javascript
复制
price = df["单价"].apply(lambda s : s).astype("float16")
 
sns.distplot(price,bins = 20) 

单价1万5左右的房子最多。曾经有人问我,一个城市的房价多高最幸福,我想的是工资是房价的1.2倍,然后没有贷款……

我们还是来看看房子的大小都什么情况吧

代码语言:javascript
复制
price = df["建筑面积"].apply(lambda s : s).astype("float16")
 
sns.distplot(price,bins = 20) 

果然还是90平的房子最多,我们都是刚需~

那么价格和面积是否正相关呢,我们来看下:

代码语言:javascript
复制
# 价格与面积的关系
 
area_price = pd.DataFrame(list(zip(df["建筑面积"].apply(lambda s : s).astype("float16").values,df['单价'].fillna(0).values)),columns = ['建筑面积','单价'])
 


 
sns.jointplot(x = "建筑面积",y = "单价",data = area_price) 

哦,两者好像并没有正负相关关系,可能在单个小区面积和单价是有关系的。

来看看有钱人的世界,看看郑州房价的天花板,哪些小区更贵!

代码语言:javascript
复制
#查看房屋单价最贵的小区
 
nb_house = df.groupby(['位置','区'])['单价'].mean().sort_values(ascending = False).reset_index().head(15)
 
nb_house 

三、结论

看到这个房价就没心情往下分析了,有啥用,又买不起,呵呵呵呵、呜呜呜呜!

还是让领导们看看选一下吧!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、数据探索
  • 二、数据分析
  • 三、结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档