主题 数据探索
一、数据质量分析
1. 缺失值分析
不多做解释了,其实就是统计含有缺失值的属性的缺失记录比例。
2. 异常值分析
异常值也称为离群点,有3种方法可以检测分析:
1)简单统计量分析
2)3西塔原则
3)箱形图分析
3. 一致性分析
指的是数据的矛盾性、不相容性,这可能是由于数据来自不同的数据源,对重复存放的数据未能进行一致性更新造成的。
二、数据特征分析
完成了数据质量分析后,就需要进行下一步的特征分析。
1. 分布分析
(1)定量数据的分布分析
一般都是按照以下的步骤进行:
1)求极差
2)决定组距与组数
3)决定分点
4)列出频率分布表
5)绘制频率分布直方图
(2)定性数据的分布分析
一般来说是采用饼图和条形图来描述定性变量的分布
2. 统计量分析
常从集中趋势和离中趋势两个方面进行分析。
集中趋势:均值、中位数、众数等
离中趋势:极差、标准差、变异系数、四分位数间距等
3. 周期性分析
探索某个变量是否随时间变化而呈现出某种周期变化趋势,如年度、季度、季节性、月度、周度等等周期性变化趋势
4. 贡献度分析
贡献度分析又称为帕累托分析,原理是帕累托法则,又称为20/80定律。
—End—
”欢迎关注,嘻嘻~”
领取专属 10元无门槛券
私享最新 技术干货