首页
学习
活动
专区
工具
TVP
发布

数学挖掘系列(二):数据探索是做些什么?

数学挖掘系列(二) :数据探索是做些什么?

需要探索的内容

数据的质量和数量是否满足建模要求?

2. 数据是否有明显的规律和趋势特征?

3. 各个属性直接有什么样的关联性?

探索的方法:检验数据质量、绘制图标、计算某些特征量,对样本结构和规律进行分析

01

质量分析

主要是对数据的有效性和准确性的分析,分析的主要内容是:

缺失值 (重点):无法获取、被遗漏、本身属性值不存在

异常值 (重点):不和常理的值、离群点

不一致的值

重复数据以及含有特殊符号的数据

判断缺失值和异常值:做简单描述统计,在Python中一般使用df.describe()语句可查看数据的每个属性的样本确实情况,以及最大值最小值均值等等基本的统计量。对于异常值的判断,如果样本数据服从正态分布,一般以3δ原则判断异常值。也可以利用箱型图画图来展示离群点。

02

特征分析

主要是对数据的分布,属性之间的关联性,数据的离散度等特征分析。

分布分析

定量数据(是否对称,绘制频率分布直方图),绘制直方图需要根据业务逻辑挑选合适的组距和组数;

定性数据(饼图和条形图来描述分布)根据变量的分类类型分组。

对比分析

适合指标间的横纵向比较、时间序列的比较分析。(绝对数比较、相对数比较)

相对数比较的方式有很多:结构相对数、比例相对数、强度相对数、计划完成程度相对数、动态相对数;根据不同的比较对象选择合适的比较方法

统计量分析:集中趋势和离中趋势两个方面分析

集中趋势:均值、中位数、众数

离中趋势:极差、标准差、变异系数 (CV)、四分位数间距

cv=s/mean(x)

周期性分析: 年度周期性、季节性周期性、月度周期性趋势、周度周期性趋势(一般针对具有时间序列的数据)

贡献度分析:帕累托分析(2/8定律),将每个产品的盈利贡献度直观的表示出来,可以提供基本的改善策略方向。

Python 中计算累计贡献度:P=1.0*data.cumsum()/data.sum()

相关性分析: 分析连续变量之间线性相关程度的强弱。

1. 散点图(单变量)散点图矩阵(多变量);

2. 计算相关系数:

Pearson相关系数(数据服从正态分布)

Spearman秩相关系数(适合分类或等级变量数据)

判定系数(R平方)

3

Python函数列表

python 中常用的做数据探索的函数(Pandas,Matplotlib)

基本统计特征函数:

基本统计作图函数:

作图之前一般需要导入一下代码,以保证图形输出格式的正确性和规范性

import matplotlib.pyplot as plt

plt.rcParams[‘font.sans-serif’]=[‘SimHei’]

plt.rcParams[‘ axes.unicode_minus’]=False

plt.figure(figsize=(7,5))

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180205G0NCS400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券