前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python数据分析告诉你为何北京的二手房你都买不起!

Python数据分析告诉你为何北京的二手房你都买不起!

作者头像
CDA数据分析师
发布2019-09-19 16:27:22
5370
发布2019-09-19 16:27:22
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师

身为北漂一族,相信很多人也面临或者经历过工作,定居租房买房之类的。每个北漂心里一直想买一套自己的房子,而北京的房价却让人让望而却步。

在此,我们来采集一下北京在售的二手房信息,有人想问,为啥不采集新房?快醒醒吧,新房可远观而不可亵玩焉,一般人都买不起,看的只会心情不好,hhhh

当然,二手房估计你也买不起!咱们拿数据说话!看看离买房还有多远的距离。

第一步

抓取相关房价信息

走在北京的大街小巷,你会看到很多做房产中介的,最常见的就是链家了~ 我们选取链家网作为爬取对象。

使用Requests和BeautifulSoup可以轻松获取网页数据。使用Python可以定义函数,这意味着一旦构建完,我们可以通过修改参数的方式快速获取网址。

写完后,我们只需要输入需要爬取的【城市URL】【多少页】数据,就可以自动运行得到数据:

使用此方法,我们将爬取了10个字段的北京二手房数据,并将抓取的信息存到本地数据库Mysql中。

保存的信息如下:

第二步

导入数据和数据清洗

首先,从数据库中导入采集的数据,并查看下数据表信息。之后原始数据需要进行一些预处理才能进行分析和建模。

1. 数据初窥

查看数据信息(包括每个字段数据类型),数据行列数,文件大小等。这份数据集一共有1742条数据信息,且没有空值存在。

2. 看看有没有重复值

可以看到这份数据集没有重复值。

3. 看看有没有异常值

根据建模需求,“房屋类型”字段我们需要将其拆分成“几室”和“几厅”。观察‘房屋类型’字段。我们发现有些字段文本信息含“别墅”和“车位”。我们把“别墅“拉出来看看。

一共有18条记录,最大值高达8800万,好吧,我只能说,打扰了!

为了建模考虑,我们直接将这些笔数不多的土豪别墅视为异常值异常值删掉。

4. 数据编码

这里为了分析需求,我们做了以下工作:将房屋类型拆分成‘bedroom’和‘halls’两个字段,房屋面积、总价、单价转换为数值型,楼层字段抽取,数据类型转换等,处理后用于分析的数据表如下:

第三步

数据探索和可视化

1. 看看目标字段房价分布

代码语言:javascript
复制
可以看到房价数据呈现右偏分布,二手房房屋单价分布的中位数为57839元,50%的房屋价格集中在44881-69525元区间。

2. 各地区在售房屋情况分析

这个字段需要进行一般化处理,转换为区域才比较有分析价值,如将北京南站转换为“丰台区”。此处暂不做处理。

3. 探究Bedrooms与Total_price的关系

且随着卧室数的增多,房屋面积越大,总价越高,符合大众的认知。

4. 探究装修类型和房价

精装修类型的房价最贵,其次是简装。

5. 探究面积和房价关系

线性关系不是很明显,且存在一些异常值。

第四步

使用数据建模预测房价和影响因素挖掘

我们选取房屋面积、卧室、客厅、装修类型、房屋单价和楼层字段建立回归分析模型预测房屋总价:

R方为0.82,以下是预测结果和真实结果的散点图分布:

以上就是房价分析的全流程,建模部分还比较粗陋,旨在练习使用。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档