在《Python机器学习-数据预处理》一篇中写过数据处理的步骤,包括数据的相关性分析,图示化输出各参数间的相关关系。学习小组的星云大师Kerry短短两周的时间,从安装Python到研究出其他各种数据预处理的方法,包括:
数据的统计信息
皮尔逊相关系数
数据分布的直方图
数据分布的密度图
数据分布的箱线图
为Kerry老师的效率点赞。上Kerry的代码:
数据的统计信息
代码:
print('统计信息:','\n',data.describe())
输出结果(一个参数为例:输出数据的统计数据个数,均值,方差,最小值,25%分位,50%分位,75%分位及最大值)
Tread gauge
count 8
mean 9.4
std 0.6
min 8.3
25% 9.1
50% 9.3
75% 9.5
max 10.5
皮尔逊相关系数
代码:
print('关联关系:','\n',data.corr(method='pearson'))
输出结果(一个参数为例:其他参数和
Tread gauge OD SW
Tread gauge 1 0.63 0.72
OD 0.63 1 0.52
SW 0.72 0.52 1
数据分布的直方图
代码:
data.hist(sharex=False, sharey=False, layout=(5,3),xlabelsize=1, ylabelsize=1)
pyplot.show()
输出结果:
4. 数据分布的密度图
代码:
data.plot(kind='density', subplots=True, layout=(5,3), sharex=False, fontsize=1)
pyplot.show()
输出结果:
5. 数据分布的箱线图
代码:
data.plot(kind='box', subplots=True, layout=(5,3), sharex=False, sharey=False, fontsize=8)
pyplot.show()
输出结果:
通过以上步骤的分析,可以更好地理解数据的统计信息及分布情况,了解待处理的数据是否存在异常点,有效的数据是建立可靠的模型的前提。
领取专属 10元无门槛券
私享最新 技术干货