No.1
引入
无论项目还是比赛,拿到一份数据,我们首先需要观测和分析数据,以更好的进行后面的数据清洗、特征工程等工作。本期我们以波士顿犯罪数据分析为例,介绍EDA的思路和方法,应用EDA来分析近几年来波士顿最集中的犯罪时间、犯罪地区以及犯罪频率等。
EDA(Exploratory Data Analysis)指探索性数据分析,主要针对原始数据进行初次分析,以了解数据的分布情况,为后期的特征工程模型选择等做准备。
No.2
波士顿犯罪分析
2.1 调库、导入数据及数据观测
2.2 数据初步分析及缺失值处理
通过生成的mz_table表观测数据缺失情况
根据以下热图可以看出,SHOOTING列缺失值非常多,不便处理,所以我们直接删除SHOOTING列。
2.3 数据处理及增加数据新特征
转换时间显示方式
为方便观测,重命名列名
增加新特征用于后面的时间影响分析
2.4 EDA
观测犯罪与时间的关系
观测犯罪地区和犯罪组织的关系和影响
观测犯罪地区和犯罪月份的关系和影响
观测犯罪组织的危险程度
观测犯罪地区和其他特征的影响以及其他特征的密度分析
可视化犯罪地区
2.5 地理信息分析
在地图上通过热图方式显示犯罪地点
整体图
放大可看具体犯罪地点
换种地图背景来显示
No.3
总结
本期我们以波士顿犯罪分析为例介绍了EDA的简单应用,但别忘了这仅仅是最开始的工作,在实际的项目中,分析完数据还要进行特征工程、模型选择等 。后面我们会慢慢介绍更多的工作,让我们期待下次再见~
参考
https://www.kaggle.com/kernels/scriptcontent/19308157/download