你在喝着啤酒扒虾,别人在小龙虾店数据里掘金

玩数据的人开起小龙虾店来,连自己都害怕!

本文转自公众号AI梦想家

魔都最近热得小伙伴们,都不敢外出了,那么你最爱夏天的什么呢?

吃小龙虾撸串喝扎啤,对我这个吃货来说,简直就是夏天存在的意义~

有时候想去吃小龙虾,看着长长的队伍,等待半天才能吃得上小龙虾,我就会想:小龙虾在夏天这么火,开一家小龙虾店会不会不错呢?

店开在哪里最合适呢?

我收集的网上各种资料数据,整理了一份小龙虾店的分布地图,看哪些地方开店会最火!

首先,开店一定要找人多的地方,人多的地方才是生意好的基本条件。常住人口最多的地方也会是居住区最密集的地方,吃小龙虾人群或许也多。

先来看看上海哪些地方居住小区最密集呢?

由上图的出的结论是:

  1. 小区主要集中在内环线附近。
  2. 内环线偏西南部分的小区密度相对来说比较大,其次靠近市北方向的小区密度比较密集。
  3. 外环线外可以看到零零星星的一些密集区,但是比较分散。

有人会说了,小区密集并不能代表人口的密集程度。确实,鉴于小区规模的大小,可能会影响人口密集度的判断。

那么我们整理出来一份,每个小区的户数,按照每户3.16人计算(注:每户人数数据来源城市数据团),可以得到上海户数和常住人数的分布图如下:

确实与小区密度分布有不同,主要是小区规模的影响,从图上可以看到内环线靠西边人口非常密集,其次是内环线靠北边人口较密集。

通过上面分析我们大致知道上海人口在哪些地方比较密集。如果开一家小龙虾店,也要先看看目前已有的小龙虾店都分布在什么地方什么位置呢,再来看看还有哪些人口密集的地方还没有开小龙虾店呢?或者这些地方是开一家小龙虾店最好的位置了,快来看看已有的小龙虾店分布图:

从小龙虾店的分布看,整体分布还是很均匀的,按照环线看,内环浦西部分还是非常的密集与上面户数分布图是一致的。

下面再来看看各区小龙虾店的个数分布:

从小龙虾店的区域分布看,浦东的小龙虾店最多,其次是宝山与闵行。

最后一起来看看小龙虾店的核密度分布图:

从图上看,基本上外环线内的店较多,市中心的店很密集的,如果一定在开一家小龙虾店,最可能就是外环线内的空白部分,比如在浦东靠近张江板块、宝山大场板块以及杨浦新江湾板块等,还有一些外环线外人口比较密集的一些空白区域。

上面我们只是从区域的小龙虾店的分析空白区域,是否有可能呢?那么开一家小龙虾店还要考虑到消费人群和消费水平等?

从各个区店分布的分析来看,每个区的消费水平也是不一样的:

从柱状图来看,市区的小龙虾的人均消费较高,均超高100元,其中最高的为原卢湾区人均消费155元,最低的始奉贤区,也要人均消费56元。

从上面各区的人均消费来看,发现小龙虾的人均消费价格与房价为啥很接近呢?

那么,我们在看看各区房价分布:

真的,各区小龙虾店的人均消费与房价为何如此相似呢?

不信我们来求一求,它们两个的相关系数为:0.89(越接近于1表明越相似)

原来房价与小龙虾的人均消费具有很强的相关性!

既然房价与小龙虾人均消费有如此强的相关性,那么我们分析一下,每家小龙虾店2KM范围内的房价与居住小区的户数情况,房价主要是与小龙虾开店的租金水平以及周边人群的消费能力有关,而居住小区的户数主要体现消费人群体量大小有关。

因此可以利用小龙虾店的人均消费与其周边2KM范围内的房价、居住小区的总户数建立一套多元回归模型,来拟合小龙虾的人均消费水平。部分样例数据如下:

由于人均消费数值,本次采用半对数回归模型去拟合人均消费水平,记人均消费Y(其中X1为小龙虾店2KM范围内的平均房价,X2为小龙虾店2KM范围内的居住小区的总户数):

通过统计分析,拟合出来的多元回归的方程为:

通过拟合二元回归模型,我们可以看到小龙虾店的人均消费与周围2KM范围内的房价相关性很强,其次与周边的常住人口密度也有一定的相关性。

利用房价、居住小区的户数等数据,我们建立了一套小龙虾店的开店选址的位置来计算开一家小龙虾店人均消费水平多少比较合适,再利用自己的商铺租金以及人工成本,从而判断自己的开店盈利水平!

作者 | 本本

原文发布于微信公众号 - DT数据侠(DTdatahero)

原文发表时间:2017-08-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏龙行天下CSIEM

科学瞎想系列之六十一 说说噪声

上节课老师说了振动,振动和噪声是不可分割的孪生兄弟,振动在介质中传播就形成声波,声波传到宝宝们的耳朵里就形成了噪声(也有说噪音的)。今天老师就给宝宝们说说噪...

32640
来自专栏AI科技评论

ICRA 2018奖项全公布,香港大学团队获最佳会议论文

ICRA 2018 本周于澳大利亚布里斯班举行。随着会议议程的推进,今天也迎来了本次大会的重头戏——ICRA 相关奖项的颁布仪式

19830
来自专栏SIGAI学习与实践平台

永远的金大侠-人工智能的江湖

金庸先生已离我们远去,笔者当天在朋友圈看到这一消息时心情非常沉痛。作为在小学时就开始读金庸小说的80后,先生给我们的,不仅仅是一个个鲜活的人物,跌宕起伏的故事情...

9310
来自专栏架构师之路

抢红包统计学(技术贴,知道为啥自己越抢越穷了吧)

抢红包统计学(技术贴,知道为啥自己越抢越穷了吧) 一、引言 过年前微信群里面流行起来一种“红包接力”的玩法,大概的规则是:群里面先由一人发一个红包,然后大家开始...

40250
来自专栏进击的程序猿

cs224d-第二课-word2vec

首先我想说下为什么会去学习cs224d,原先我一直是做工程的,做了大概3年,产品做了好多,但是大多不幸夭折了,上线没多久就下线,最后实在是经受不住心灵的折磨,转...

18710
来自专栏大数据挖掘DT机器学习

中国快递包裹总量的预测-基于SARIMA模型

国家邮政局发布的数据显示,2015年4月底,快递业务量完成15亿件,同比增长50.9%。目前,快递业务量增速已连续50个月超过50%,尤其是网购旺季(双十一、双...

35240
来自专栏深度学习之tensorflow实战篇

R语言自带的数据文件

R语言有大量的样本数据可以直接用来作为数据分析和挖掘案例,可以收藏着以后用! R:datasets >install.packages("datasets")...

812110
来自专栏生信技能树

使用Mutant-allele tumor heterogeneity(MATH)算法评估肿瘤异质性

前些天看到一篇临床研究的文献,发表于2017年 Breast Cancer Res Treat期刊的Clinical and molecular relevan...

41540
来自专栏大数据挖掘DT机器学习

【实例】R语言如何做银行财务数据分析?

搜集银行业上市公司的财务数据分析股票价格的财务影响因素,观测流动比率、净资产负债比率、资产固定资产比率、每股收益、净利润、增长率、股价和公布时间等数据。首...

97980
来自专栏DT数据侠

如何用数据找到“钱多事少离家近”的工作?

“钱多事少离家近,位高权重责任轻,睡觉睡到自然醒,数钱数到手抽筋”, 这样的工作真的存在吗?快随本文数据侠,一起搜罗吧~

11100

扫码关注云+社区

领取腾讯云代金券