Python机器学习（九）-数据预处理（续

文章来源：企鹅号 - 葛振红

在《Python机器学习-数据预处理》一篇中写过数据处理的步骤，包括数据的相关性分析，图示化输出各参数间的相关关系。学习小组的星云大师Kerry短短两周的时间，从安装Python到研究出其他各种数据预处理的方法，包括：

数据的统计信息

皮尔逊相关系数

数据分布的直方图

数据分布的密度图

数据分布的箱线图

为Kerry老师的效率点赞。上Kerry的代码：

数据的统计信息

代码：

print('统计信息：','\n',data.describe())

输出结果（一个参数为例：输出数据的统计数据个数，均值，方差，最小值，25%分位，50%分位，75%分位及最大值）

Tread gauge

count 8

mean 9.4

std 0.6

min 8.3

25% 9.1

50% 9.3

75% 9.5

max 10.5

皮尔逊相关系数

代码：

print('关联关系：','\n',data.corr(method='pearson'))

输出结果（一个参数为例：其他参数和

Tread gauge OD SW

Tread gauge 1 0.63 0.72

OD 0.63 1 0.52

SW 0.72 0.52 1

数据分布的直方图

代码：

data.hist(sharex=False, sharey=False, layout=(5,3),xlabelsize=1, ylabelsize=1)

pyplot.show()

输出结果：

4. 数据分布的密度图

代码：

data.plot(kind='density', subplots=True, layout=(5,3), sharex=False, fontsize=1)

pyplot.show()

输出结果：

5. 数据分布的箱线图

代码：

data.plot(kind='box', subplots=True, layout=(5,3), sharex=False, sharey=False, fontsize=8)

pyplot.show()

输出结果：

通过以上步骤的分析，可以更好地理解数据的统计信息及分布情况，了解待处理的数据是否存在异常点，有效的数据是建立可靠的模型的前提。

发表于: 2018-07-032018-07-03 08:00:02
原文链接：https://kuaibao.qq.com/s/20180703G08S0400?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python机器学习（九）-数据预处理（续

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐