大数据告诉你我国什么地方是吃货聚集地R语言代码讲解

文章来源：企鹅号 - 毕业零距离

前天给大家分享了我国什么地方吃货最多的分析结果，今天给大家上R语言分析过程和代码。

本文需要用到的R包有reshape2、plyr、ggplot2、Hmisc、coefplot。

1、整理数据

由于我们下载到的数据是好几个单表，为了后期数据处理方便我们需要合成一个单表。

图为：中华人民共和国国家统计局下载的各省市人们平均年收入数据

如图列名都是中文命名，为了方便R语言程序处理我们把列名命名为“zone、y2016、y2015、y2014、y2013，此外为了方便把表和在一起，这里我把每一张表后面添加一个index列表示该城市的某个指标，如下图

从表中我们可以发现对于特定的城市，每年的数值在不同的列中，也就是所谓的交叉表，虽然方便人类使用，但对于我们接下来用ggplot2作图和数据分析算法不理想，我们想让他设置为每一行代表一个单独的城市-指标-年，因此我们使用reshape包中的melt函数来“融化”这些数据，使其变成单独的城市-年-指标

其他表同样的处理，之后就是用plyr包中的join函数按照“zone”和“year”两个字段把所有表链接起来

最后处理好的数据是这样的

计算人均消费支出的数据、全部消费与收入比、饮食消费与全部消费比

到这里我们的数据全部处理好了，接下来就是数据可视化的操作，用到ggplot2包制作图像。

1、各省市人均收入

人均收入箱线图

2、连锁餐饮企业门店个数

3、餐饮行业从业人数(代码和上面一样，最好的方式时写一个函数封装起来，方便调用，这里因为数据不多，小编没有封装就一个一个写了)

4、人均消费率

5、用于餐饮的消费率

建立数据模型

1、构建人均消费和收入率的模型

2、构建连锁门店数量和消费率的模型(和上面代码一样，这里也没有封装，直接重复使用代码)

3、构建餐饮行业从业人数和消费率的模型

4、构建餐饮消费率与人均收入、门店个数、和从业人数的模型

好了今天明明同学就给大家讲到这里，谢谢大家对“毕业零距离”的支持。由于小编还在学习，以后会继续给出R语言分析和图像制作过程教学。

观看更实用教程请看本微信公共号历史记录。有任何问题请随时后台留言或者私信小编。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货