Python机器学习(九)-数据预处理(续

在《Python机器学习-数据预处理》一篇中写过数据处理的步骤,包括数据的相关性分析,图示化输出各参数间的相关关系。学习小组的星云大师Kerry短短两周的时间,从安装Python到研究出其他各种数据预处理的方法,包括:

数据的统计信息

皮尔逊相关系数

数据分布的直方图

数据分布的密度图

数据分布的箱线图

为Kerry老师的效率点赞。上Kerry的代码:

数据的统计信息

代码:

print('统计信息:','\n',data.describe())

输出结果(一个参数为例:输出数据的统计数据个数,均值,方差,最小值,25%分位,50%分位,75%分位及最大值)

Tread gauge

count 8

mean 9.4

std 0.6

min 8.3

25% 9.1

50% 9.3

75% 9.5

max 10.5

皮尔逊相关系数

代码:

print('关联关系:','\n',data.corr(method='pearson'))

输出结果(一个参数为例:其他参数和

Tread gauge OD SW

Tread gauge 1 0.63 0.72

OD 0.63 1 0.52

SW 0.72 0.52 1

数据分布的直方图

代码:

data.hist(sharex=False, sharey=False, layout=(5,3),xlabelsize=1, ylabelsize=1)

pyplot.show()

输出结果:

4. 数据分布的密度图

代码:

data.plot(kind='density', subplots=True, layout=(5,3), sharex=False, fontsize=1)

pyplot.show()

输出结果:

5. 数据分布的箱线图

代码:

data.plot(kind='box', subplots=True, layout=(5,3), sharex=False, sharey=False, fontsize=8)

pyplot.show()

输出结果:

通过以上步骤的分析,可以更好地理解数据的统计信息及分布情况,了解待处理的数据是否存在异常点,有效的数据是建立可靠的模型的前提。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180703G08S0400?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券