前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >统计学与pandas学习(三)——方差和标准差

统计学与pandas学习(三)——方差和标准差

作者头像
fanzhh
发布2019-08-20 11:20:16
2.4K0
发布2019-08-20 11:20:16
举报

第三章《由数据分散程度估计统计量:方差和标准差》

数据的分散和波动

平均值表示“数据在其周围分布”这一大致的推测,只根据这一点并不能弄清数据分布的状态。

偏差与方差

样本中各数据比平均值大多少或小多少,这个数值在统计学中称为“偏差”(deviation)。将差值进行平方再取平均,得出的统计量成为“方差”(variance)。这个值可以评价数据的波动。方差开方后的数值称为“标准差”(standard deviation),标准差也即偏差的均方根值,常被略称为英语首字母“S.D”。

标准差的意义

与“平均值”代表数据分布的数值相对,S.D.作为其代表值的基点,表示数据大致扩散到多远的程度的量。

标准差将数据平均值的离散方式进行平均化。此时,无论是向大的方面离散还是小的方面离散,都以正数进行评价,进行避免相互抵消的平均。

习题

以下为初三某班期末成绩表:

no

chinese

math

english

physics

chemistry

politics

total

1

91

97

89

95

89

96

557

2

89

100

90

90

88

97

554

3

88

97

93

93

89

91

551

4

96

90

97

90

86

92

551

5

89

94

95.5

85

85

96

544.5

6

89

94

93.5

86

81

95

538.5

7

87

93

93

84

77

98

532

8

81

97

90.5

89

75

98

530.5

9

83

93

94.5

87

74

98

529.5

10

87

97

92

77

77

98

528

11

80

96

93

90

76

91

526

12

85

87

91.5

87

78

96

524.5

13

83

92

85

89

83

88

520

14

85

90

85.5

94

80

84

518.5

15

82

89

95.5

75

75

97

513.5

16

83

100

87

80

69

92

511

17

85

95

72

87

79

85

503

18

74

95

83

88

77

83

500

19

83

87

88.5

84

61

96

499.5

20

83

89

93

75

61

95

496

21

87

80

82

80

71

93

493

22

80

80

92

75

73

91

491

23

77

81

90

68

82

92

490

24

85

84

81.5

77

63

94

484.5

25

78

85

81

82

64

90

480

26

81

83

84.5

81

62

86

477.5

27

80

87

77

70

64

93

471

28

81

96

79.5

65

53

93

467.5

29

74

76

69.5

81

74

89

463.5

30

75

74

77.5

75

66

93

460.5

31

84

74

88.5

71

56

85

458.5

32

71

76

81

69

64

96

457

33

85

74

84

63

66

80

452

34

82

76

84.5

65

63

81

451.5

35

79

74

70.5

76

63

89

451.5

36

79

88

75

61

51

92

446

37

74

85

48

85

73

78

443

38

82

71

72

66

62

88

441

39

76

77

76.5

64

49

96

438.5

40

69

66

79

65

58

80

417

41

80

70

61

61

52

89

413

42

80

74

46.5

70

53

85

408.5

43

69

66

70

62

52

84

403

44

77

62

53.5

55

59

91

397.5

45

72

55

89

57

43

74

390

46

85

54

48

44

49

94

374

47

69

71

74

40

32

76

362

48

79

49

53.5

45

37

78

341.5

49

72

48

52

56

52

58

338

50

70

60

58

33

33

70

324

51

74

45

44.5

47

28

80

318.5

52

51

65

34

53

40

65

308

53

63

30

38

45

47

74

297

54

66

40

36.5

37

48

69

296.5

55

71

66

30.5

33

29

66

295.5

56

44

78

16.5

37

37

67

279.5

57

72

18

46.5

30

33

78

277.5

58

50

32

42

55

48

50

277

59

75

27

31.5

31

31

74

269.5

60

69

28

34.5

38

25

70

264.5

61

58

26

15

46

41

73

259

62

63

38

36

28

42

51

258

63

52

49

39.5

25

36

55

256.5

64

60

10

13.5

53

58

56

250.5

65

62

45

15

46

23

51

242

66

21

33

39.5

43

41

56

233.5

67

46

39

21

39

29

50

224

68

61

15

19

26

22

59

202

69

53

25

24

30

19

48

199

导入库并加载数据

代码语言:javascript
复制
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
df = pd.read_excel('201706.xls',index_col=0)

计算标准方差

代码语言:javascript
复制
df.std()

输出:

语文 13.135499 数学 24.751200 英语 25.808477 物理 20.585028 化学 19.093502 政治 14.713432 总分 107.593697 dtype: float64

由结果可知,语文和政治成绩分散程度最小,英语成绩分散程度最大。

各科成绩分布图

代码语言:javascript
复制
bins = [10,20,30,40,50,60,70,80,90,100]
cuts = pd.cut(df['chinese'],bins=bins)
counts = pd.value_counts(cuts)
cuts.value_counts(sort=False).plot(kind='bar',title='chinese scores')
语文

语文成绩分布

数学

数学成绩分布

英语

英语成绩分布

物理

物理成绩分布

化学

化学成绩分布

政治

政治成绩分布

总分

总分成绩分布

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.10.23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据的分散和波动
  • 偏差与方差
  • 标准差的意义
  • 习题
    • 导入库并加载数据
      • 计算标准方差
        • 各科成绩分布图
          • 语文
          • 数学
          • 英语
          • 物理
          • 化学
          • 政治
          • 总分
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档