专栏首页CDA数据分析师Python数据分析告诉你为何北京的二手房你都买不起!

Python数据分析告诉你为何北京的二手房你都买不起!

身为北漂一族,相信很多人也面临或者经历过工作,定居租房买房之类的。每个北漂心里一直想买一套自己的房子,而北京的房价却让人让望而却步。

在此,我们来采集一下北京在售的二手房信息,有人想问,为啥不采集新房?快醒醒吧,新房可远观而不可亵玩焉,一般人都买不起,看的只会心情不好,hhhh

当然,二手房估计你也买不起!咱们拿数据说话!看看离买房还有多远的距离。

第一步

抓取相关房价信息

走在北京的大街小巷,你会看到很多做房产中介的,最常见的就是链家了~ 我们选取链家网作为爬取对象。

使用Requests和BeautifulSoup可以轻松获取网页数据。使用Python可以定义函数,这意味着一旦构建完,我们可以通过修改参数的方式快速获取网址。

写完后,我们只需要输入需要爬取的【城市URL】【多少页】数据,就可以自动运行得到数据:

使用此方法,我们将爬取了10个字段的北京二手房数据,并将抓取的信息存到本地数据库Mysql中。

保存的信息如下:

第二步

导入数据和数据清洗

首先,从数据库中导入采集的数据,并查看下数据表信息。之后原始数据需要进行一些预处理才能进行分析和建模。

1. 数据初窥

查看数据信息(包括每个字段数据类型),数据行列数,文件大小等。这份数据集一共有1742条数据信息,且没有空值存在。

2. 看看有没有重复值

可以看到这份数据集没有重复值。

3. 看看有没有异常值

根据建模需求,“房屋类型”字段我们需要将其拆分成“几室”和“几厅”。观察‘房屋类型’字段。我们发现有些字段文本信息含“别墅”和“车位”。我们把“别墅“拉出来看看。

一共有18条记录,最大值高达8800万,好吧,我只能说,打扰了!

为了建模考虑,我们直接将这些笔数不多的土豪别墅视为异常值异常值删掉。

4. 数据编码

这里为了分析需求,我们做了以下工作:将房屋类型拆分成‘bedroom’和‘halls’两个字段,房屋面积、总价、单价转换为数值型,楼层字段抽取,数据类型转换等,处理后用于分析的数据表如下:

第三步

数据探索和可视化

1. 看看目标字段房价分布

可以看到房价数据呈现右偏分布,二手房房屋单价分布的中位数为57839元,50%的房屋价格集中在44881-69525元区间。

2. 各地区在售房屋情况分析

这个字段需要进行一般化处理,转换为区域才比较有分析价值,如将北京南站转换为“丰台区”。此处暂不做处理。

3. 探究Bedrooms与Total_price的关系

且随着卧室数的增多,房屋面积越大,总价越高,符合大众的认知。

4. 探究装修类型和房价

精装修类型的房价最贵,其次是简装。

5. 探究面积和房价关系

线性关系不是很明显,且存在一些异常值。

第四步

使用数据建模预测房价和影响因素挖掘

我们选取房屋面积、卧室、客厅、装修类型、房屋单价和楼层字段建立回归分析模型预测房屋总价:

R方为0.82,以下是预测结果和真实结果的散点图分布:

以上就是房价分析的全流程,建模部分还比较粗陋,旨在练习使用。

本文分享自微信公众号 - CDA数据分析师(cdacdacda)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • ​重磅 | DAAS(数据管理服务)调研与简要分析

    文| 张涵诚、陆骥 本文为作者投稿,转载请联系作者 背景 当前大家都知道: 1.数据交易市场的繁荣为时过早,数据加工和处理太过于分散化; 2.数据金字塔顶部的数...

    CDA数据分析师
  • 入行数据科学一定要有研究生学位吗?

    这个头衔给我带来了所谓的光环,它暗示我在研究生院待过,做过一些学术研究。完成博士学位,意味着你不过是千万个”书呆子”中的一员,而在学了几年后辍学似乎显得你更有个...

    CDA数据分析师
  • 译文|大数据不必大系统!

    本文由CDA数据分析研究院翻译,译者:王晨光,转载必须获得本站、原作者、译者的同意,拒绝任何不表明译者及来源的转载! 我已经就大数据及其益处和挑战写过不少东西了...

    CDA数据分析师
  • 用AlphaGo来做股票交易会怎样?机器学习预测股票靠谱么?

    今天李世石已连续输掉了第二局,粗看下来,后面几盘似乎已没啥悬念了。无疑,这是一个伟大的时刻,也是个伟大的开始,超级智能机器在未来将会在人类生活中扮演更多更重要的...

    机器学习AI算法工程
  • Roslyn 的确定性构建

    2018-03-31 09:22

    walterlv
  • 对话清华NLP实验室刘知远:NLP搞事情少不了知识库与图神经网络

    在这一年中,清华大学副教授刘知远和他所在的清华自然语言处理实验室同样在这个领域做出了很多成果,他们关注如何结合深度神经网络与大型知识库,并期望构建更多鲁棒及可解...

    zenRRan
  • 构建批流一体数据集成平台的一致性语义保证

    陈肃致力于企业级数据集成平台的研发。曾就职于中国移动研究院(用户行为实验室负责人)、亿瑞互动科技有限公司(技术VP)。对消息中间件、推荐系统等领域都有丰富的实践...

    Spark学习技巧
  • 我是如何拿到硅谷Offer的:告诉你算法面试的秘密

    原视频地址:www.youtube.com/watch?v=ub1Zwz_nivU

    哲洛不闹
  • 企业云端数据可能面临这些安全威胁

    有很多与设备和服务之间的数据共享相关的风险,这也正是为什么在云端使用数据加密如此重要。 在日常生活中,我们使用了大量的数据。有些数据是敏感的,有些不是,但为了保...

    静一
  • HTTPS详解

    1990年互联网诞生之初,就已经开始用超文本传输协议HTTP传输数据,这也是为什么现在网页地址都是以http开头的原因。但是HTTP协议传输数据是明文传输,任意...

    用户2937493

扫码关注云+社区

领取腾讯云代金券