专栏首页数据社在郑州,你该买哪里的房子?

在郑州,你该买哪里的房子?

 背景

某次和领导吃饭,无意中提到了房子的话题,说了几句自己的心得经验(虽然没有再次实操的资本),却给领导留下了深深的印象(领导,你不是又要在郑州置业了吧)。

前段时间一个老朋友也联系我咨询郑州房子的事情(难道就因为我在郑州吗?)。那朋友一连串问了我好几个为题,听说郑州现在房子降价了?现在该不该买?买这个XXX楼盘合适吗?

可是,我们是老朋友,你懂的。本着负责任的态度,今天我们来一块分析下郑州的房价,数据爬取自某房中介网站(我只是数据的搬运工,不对数据真实性负责哈)。

一、数据探索

爬取数据的代码已经上传全球最大同性交友网站,请star :https://github.com/qinchaofeng/zz_house_price_analysize/blob/master/zz_house_lj.py

首先我们来简单探索爬取的数据都有哪些内容:

df_gx = pd.read_excel("E:/code/python/file/高新区.xlsx",0,header = 0)
 
df_gx.head() 

爬取的时候分按照区域分的文件,先合并文件:

##读取爬虫数据
 
df_gx = pd.read_excel("E:/code/python/file/高新区.xlsx",0,header = 0)
 
df_eq = pd.read_excel("E:/code/python/file/二七区.xlsx",0,header = 0)
 
df_gc = pd.read_excel("E:/code/python/file/管城区.xlsx",0,header = 0)
 
df_gq = pd.read_excel("E:/code/python/file/航空港区.xlsx",0,header = 0)
 
df_hj = pd.read_excel("E:/code/python/file/惠济区.xlsx",0,header = 0)
 
df_jk = pd.read_excel("E:/code/python/file/经开区.xlsx",0,header = 0)
 
df_dq = pd.read_excel("E:/code/python/file/郑东新区.xlsx",0,header = 0)
 
df_zy = pd.read_excel("E:/code/python/file/中原区.xlsx",0,header = 0)
 
df_js = pd.read_excel("E:/code/python/file/金水区.xlsx",0,header = 0)
 


 
#增加区域标签
 
df_gx["区"]="高新区"
 
df_eq["区"]="二七区"
 
df_gc["区"]="管城区"
 
df_gq["区"]="航空港区"
 
df_hj["区"]="惠济区"
 
df_jk["区"]="经开区"
 
df_dq["区"]="郑东新区"
 
df_zy["区"]="中原区"
 
df_js["区"]="金水区"
 
#合并文件,查看数据量
 
df = df_gx.append(df_eq).append(df_gc).append(df_gq).append(df_hj).append(df_jk).append(df_dq).append(df_zy).append(df_js)
 
df.shape 

此次分析的数据共16个特征,11926条记录。

二、数据分析

每个区数据条数如下:

df['区'].value_counts()

可以看出,管城、中原两个区域的房子比较多,大概是因为两个区域有浓厚的生活气息,大家都知道中原区美食是相当多啊。另外经开区和航空港区的房子较少,两个都属于新开发的区域,港区距离郑州中心城区又更远一些。

郑东新区挂牌房子少,大概率是太贵了,我等屌丝买不起啊!

另外,买房的你还看什么,户型 ,户型不好了利用率低,屋子再小得有3个房间吧,要不来个亲戚还是没地方住。

df['房屋户型'].value_counts().head() 

嘿嘿嘿,果然3室的房子更多,现在市场上有很多小三室(90平以内),很适合刚需置业者的首选,年轻人打拼不易,慢慢来,大平层会有的,别墅也会有的……

还是得买南北通透的房子,不信你看。

买房最关心的应该就是房屋的价格,下面我们来看下每个区域的价格分布。

首先对原始数据进行处理,去掉单位,方便后续计算。

#去掉单位,转数字
 


 
df["单价"] = pd.to_numeric(df["单价"].str.replace("元/平米",""))
 
df["总价"] = pd.to_numeric(df["总价"].str.replace("万",""))
 
df["建筑面积"] = pd.to_numeric(df["建筑面积"].str.replace("㎡",""))
 
price = df["单价"].apply(lambda s : s).astype("float16")
 
sns.distplot(price,bins = 20) 

单价1万5左右的房子最多。曾经有人问我,一个城市的房价多高最幸福,我想的是工资是房价的1.2倍,然后没有贷款……

我们还是来看看房子的大小都什么情况吧

price = df["建筑面积"].apply(lambda s : s).astype("float16")
 
sns.distplot(price,bins = 20) 

果然还是90平的房子最多,我们都是刚需~

那么价格和面积是否正相关呢,我们来看下:

# 价格与面积的关系
 
area_price = pd.DataFrame(list(zip(df["建筑面积"].apply(lambda s : s).astype("float16").values,df['单价'].fillna(0).values)),columns = ['建筑面积','单价'])
 


 
sns.jointplot(x = "建筑面积",y = "单价",data = area_price) 

哦,两者好像并没有正负相关关系,可能在单个小区面积和单价是有关系的。

来看看有钱人的世界,看看郑州房价的天花板,哪些小区更贵!

#查看房屋单价最贵的小区
 
nb_house = df.groupby(['位置','区'])['单价'].mean().sort_values(ascending = False).reset_index().head(15)
 
nb_house 

三、结论

看到这个房价就没心情往下分析了,有啥用,又买不起,呵呵呵呵、呜呜呜呜!

还是让领导们看看选一下吧!

本文分享自微信公众号 - 数据社(DataClub),作者:数据社

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 经典中的经典--泰坦尼克号的乘客生存预测

    数据分析/挖掘是以概率论、线性代数、统计学、信息论为基础,根据之前接触到的数据挖掘流程,可定义为:数据准备-->数据探索--> 数据预处理-->特征工程-->模...

    WindyQin
  • 数据挖掘从入门到放弃(二):决策树

    “ 上篇内容介绍的是线性回归和逻辑回归模型,输入输出是连续值,分类模型的输出是一个有限集合,本篇介绍决策分类树算法”

    WindyQin
  • 你知道Hive中的中位数吗

    关于求解中位数,我们知道在Python中直接有中位数处理函数(mean),比如在Python中求解一个中位数,代码很简单。

    WindyQin
  • 使用Pandas读取复杂Excel表单

    传统企业里,Excel仍然是数据存储,报表生成和数据分析的主力军,随着数据体量的增长,和数据分析、挖掘,BI更进一步需要,如何快速地使用Pandas来ETL E...

    Lenis
  • Pandas进阶修炼120题,给你深度和广度的船新体验

    本文为你介绍Pandas基础、Pandas数据处理、金融数据处理等方面的一些习题。

    数据派THU
  • 50道练习实践学习Pandas!

    原文地址:https://www.kesci.com/home/project/5ddc974ef41512002cec1dca

    Datawhale
  • 数学建模中离散变量的处理——笔记二

    原文主要内容是利用Titanic数据集讲解常用的机器学习算法,原数据集的主要任务是根据相关变量预测乘客是否可以存活(It is your job to pred...

    用户7010445
  • Pandas入门操作

    俺也想起舞
  • Python-科学计算-pandas-07-Df多条件筛选

    系统:Windows 7 语言版本:Anaconda3-4.3.0.1-Windows-x86_64 编辑器:pycharm-community-2016.3....

    zishendianxia
  • 快乐学习Pandas入门篇:Pandas基础

    寄语:本文对Pandas基础内容进行了梳理,从文件读取与写入、Series及DataFrame基本数据结构、常用基本函数及排序四个模块快速入门。同时,文末给出了...

    Datawhale

扫码关注云+社区

领取腾讯云代金券