专栏首页全栈数据化营销数据分析案例:用数据研究房地产,买到理想的房源

数据分析案例:用数据研究房地产,买到理想的房源

买房,可以说是很多人一辈子最大的投资,几百万的代价那得慎之又慎,否则买到烂尾的、有质量问题、设施问题的房子那就实在不值了。另外,现在的市场房子楼盘还是很多的,房源数量也不少,如何从众多房源中买到理想的房子呢?这次就以一篇案例做详细的说明。

一、获取数据

先明确确定房子价格的因素主要在房屋本身的属性、房屋的空间地理位置、周边的其他设施,例如户型、区位、交通、价格、品牌、配套设施等。

首先可以通过某个地区房源网站上爬取相关信息,例如价格、面积、户型、位置经纬度等字段:

接下来可以爬取美团等团购网站的餐饮设施信息,包括餐饮类型、价格、区域、评价、位置经纬度信息:

也可以爬取周边区域设施的poi数据:包括经纬度信息、分布区域等字段。

二、数据整理:

在这一步对爬取的数据做初步的整理,这里我们需要整理的是房源距离市中心的距离、房源的基本信息、方愿周边1公里内的服务设施数量数据和分布数据。

这里使用ArcGIS分析系统对地理数据做整理将上述的数据放进ArcGIS里,以房源为基点做缓冲区,缓冲区半径为1KM。然后使用缓冲区与餐饮POI进行空间关联,这样就可以统计出一个房源1KM半径范围内餐饮POI的数量,价格,评论数等等信息,以便接下来建模使用:

然后计算每个房源点距离市中心的距离,在arcgis内导出投影后的经纬度,并在excel里计算出每个房源点距离市中心的距离:

三、建模分析

接下来我们要做的是分别查看各个变量和房价之间的关系,清洗数据后使用Rython和R制作矩阵散点图查看大概情况:

理解几个关键点:

1、图中的直方图为每个维度的数据分布;

2、散点图中圆越完美表明相关度越低,椭圆形状表明相关度显著;

3、图中的线条是查看线性关系的,可以体现自变量和因变量之间的关系;

4、相关性系数,绝对值越接近1表明相关性越显著,比如房价和面积相关度为0.77;

从上图中可以看到,某些因素明显有更高的相关性。于是使用全部属性构建一个回归模型,精确预估房价。

最终模型结果如下:Estimate为回归系数,std.error为标准误差,t.value为t值,pr.t为P值,显然所有变量P值均小于0.05,非常显著。

最后,来使用这个模型,来给房源定价。输入房源的信息,就能预测出结果。比如108平米,3房2卫,1KM半径缓冲区内有228家餐厅,平均价格114.2,平均评论数247.36,评论综合56399条,距离市中心6.438KM:

这样便能拿到预估价格,再和实际价格对比就可以作为一种购房参考:从左往右分别是:估价-最低估价-最高估价:

以上只是数据在房地产领域里头运用的一个案例,事实上,数据在房地产应用还是非常对的,包括房产产品规划、区域位置价值分析、拓客区域定位、客户人群价值判断、客户画像写真、精准营销、成本分析等等。

另外,需要说明的是,虽然我做过很多类似的项目,但是因为涉密的问题暂时无法公开。本文是大鹏的文章,并非我原创,我觉得思路基本就是类似的,希望对数据的有一个深入的认识。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 城市数据分析:基于腾讯人口迁徙数据研究城市人口流动

    随着百度、腾讯对数据的开放,城市数据的研究也更加准确了,这让数据在城市分析、人口研究、商业价值挖掘中发挥着更大的作用,本篇文章就是一个成数据数据的实际运用。

    沉默的白面书生
  • 不用代码也可以采集到高质量网页数据!

    最近浙江省新高中信息技术教材将VB语言替换成python,并且使用「Python/Matplotlib/Pandas」组合作为高中计算机高考内容,这个引起了使用...

    沉默的白面书生
  • 一张脑图讲透会员数据化运营:给你分析思路、模型和工具

    老客户或者会员客户对企业来说是非常重要的收入来源,开发新客户的成本是老客户的8倍,所有非常有必要激活老客户。数据在会员客户维护中起着非常重要的作用。于是就整理了...

    沉默的白面书生
  • 【热文】不打破割据,大数据还是“乌托邦”

    非IT企业数字化、互联网巨头数据割据、政府监管和开放、用户的隐私顾虑,让大数据看起来是一个很难实现的乌托邦。   最近互联网各种热词很多,各种概念满天飞。说到...

    钱塘数据
  • “大数据”还不等于“大智慧”

      技术开发商和媒体早早地为我们描绘了一个即将来临的“大数据时代”。“大数据”无所不知无所不能;有了“大数据”的支持,公司运行效率突飞猛进;“大数据”还能帮你...

    腾讯研究院
  • 【干货】十分钟读完《大数据时代》

    ? ? 1、震人心魄的数据 2003年,人类第一次破译人体基因密码的时候,辛苦工作10年才完成了三十亿对碱基对的排序;大约10年后,世界范围内的基因仪每15...

    钱塘数据
  • 中关村大数据日|灯塔大数据产品负责人钱兵谈运营商大数据发展(附下载)

    由国家发改委、工信部、网信办、京津冀三地政府指导,中关村管委会、北京市经信委、北京市发改委主办,北京大数据研究院、中关村大数据产业联盟、北京软件和信息服务业协...

    灯塔大数据
  • 发改委答记者问:中国将于2018年前建成国家政府数据统一开放门户

    大数据文摘
  • 数据竞赛专题 | 数据探索-从数据中发现隐藏价值

    为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力。DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP...

    Datawhale
  • 七种数据分析领域中最为人称道的降维方法

    近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。于此同时,这也推动了数据降维处理的应用。实际上,数据量有时过犹不及。有时在数...

    小莹莹

扫码关注云+社区

领取腾讯云代金券