统计学与pandas学习（四）——这个数据是“平常”还是“特殊”？

fanzhh

发布于 2019-08-20 11:21:03

5290

文章被收录于专栏：fanzhh的技术笔记fanzhh的技术笔记

总结

判断数据的特殊性，不是以距离平均值，而是以S.D.为基准。
只距平均值1个S.D.左右的数据可以被称为普通的数据，距平均值超过2个S.D.的数据可以被称为特殊的数据。
想要知道有几个S.D.，可以用[（数据）- （平均值）] / （S.D.）来计算。
数据组X的全部数据加上定值a得新数据Y，数据Y的平均值是数据X的平均值加上a，数据Y的方差和S.D.与数据X相比不变。
数据组X的全部数据乘以定值k得新数据组Y，数据Y的平均值是数据X的平均值乘以k，数据Y的方差是k的平方倍数，S.D.是k倍。
将数据进行[（数据）-（平均值）] / （S.D.）的加工，所得数据的平均值为0, S.D.为1。

练习

继续使用上一节初三某班期末考试为例。

计算方差和平均值：

std = df.std()
mean = df.mean()

语文偏离度前5名：

((df['chinese']-mean['chinese'])/std['chinese']).sort_values(ascending=False)[:5]

输出：

no 4 1.630718 1 1.250070 2 1.097811 5 1.097811 6 1.097811 Name: chinese, dtype: float64

距离平均值都不到2个方差，说明没有特别优异的成绩。相对来说4号同学成绩很不错。

数学偏离度前5名：

no 2 1.243096 16 1.243096 1 1.121890 10 1.121890 3 1.121890 Name: math, dtype: float64

没有特别优异成绩，但16号同学偏科很严重。

英语偏离度前5名：

no 4 1.198910 15 1.140789 5 1.140789 9 1.102042 6 1.063295 Name: english, dtype: float64

英语成绩也很平均，15号同学的英语不错。

物理偏离度前5名：

no 1 1.496796 14 1.448217 3 1.399638 11 1.253901 2 1.253901 Name: physics, dtype: float64

化学偏离度前5名：

no 1 1.643324 3 1.643324 2 1.590950 4 1.486203 5 1.433829 Name: chemistry, dtype: float64

学霸们化学很扎实。

政治偏离度前5名：

no 10 1.109112 7 1.109112 8 1.109112 9 1.109112 2 1.041147 Name: politics, dtype: float64

政治成绩最均衡。

总分偏离前5名：

no 1 1.335001 2 1.307118 3 1.279236 4 1.279236 5 1.218823 Name: total, dtype: float64

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017.12.23 ，如有侵权请联系 cloudcommunity@tencent.com 删除

pandas

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

pandas

登录后参与评论

0 条评论

热度

统计学与pandas学习（四）——这个数据是“平常”还是“特殊”？

统计学与pandas学习（四）——这个数据是“平常”还是“特殊”？

总结

练习

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐