前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用一个高考数据的例子,说明数据的误导

用一个高考数据的例子,说明数据的误导

作者头像
叶锦鲤
发布2018-03-15 11:54:27
1.1K0
发布2018-03-15 11:54:27
举报
文章被收录于专栏:悦思悦读悦思悦读

又是一年高考

高考成绩刚出,正在紧张的志愿填报阶段。朋友圈里每天被高考刷屏。消息大部分可归为两类:i) 推荐学校,和ii)感叹阶级固化“寒门再难出贵子”。

后一类并不是高考时段的专属,不过因为今年北京的高考状元发了个感慨,说农村孩子越来越难考上好大学,再次成为了时下热点。

“一图揭示阶级固化”

在如此的背景之下,今天在朋友圈看到下面这样一幅图:

图-1

“家庭收入如何影响录取院校分布”——简直就是阶级固化的铁证啊!

特别是左上角,看见了吗?家庭收入占前1%家庭的孩子,居然占了清华北大名额的30%!

这怎么可以呢!农村孩子寒窗十几年就没有用了吗?一个社会一旦上升通道被堵死,接下来要发生什么事情吼@(#×¥/\&~~

从图中能看出什么?

不过,先别急着肾上腺素上升。咱们先来说说从这张图能看出什么。

  • 数据来源不清

这幅图来自朋友圈,发图的人没有任何文字说明,询问来源也没有答复。因此,数据源未知、未经认证。

  • 数据缺失

最起码的,连这是依据哪一年还是哪几年的高考数据统计的都没有说明。

而怎么从被录取的考生名字,直接定位到他们各自家庭在社会中收入占比,也没有解释(有一些社会学论文涉及到类似主题,不过人家都会特别说明数据来源,并申明家庭收入来自于对学生的问卷调查)。

  • 假设可信

不过,既然我们是要用这个例子来说明数据可视化方法、工具所带来的误导性,而非数据自身的不真实,那么不妨先假设数据来源可靠。具体数据来源于1977年恢复高考之后的某一个时间段。

又因为其中有一个“北京市属高校”,想来这是一个针对北京考生的调查。

综合起来,我们姑且假设:该图表生成所依据的数据,来自xxxx年到yyyy年的北京高考考生的真实数据。

  • 认清百分比含义

要注意一点:横向四种颜色中所有的百分比加起来并不等于1

比如最上面表示“清华北大”的蓝黑色:30% + 27% + 24% + 22% = 127% > 100%,。因此,虽然它们用了同一种颜色,但其实,它们并非一个整体。

各个百分比数字标识的,实际上是被这一类型院校录取的考生占该收入段考生的比例。

  • 隐含信息

而且,总共横向只有四种类型的录取院校,既没有落榜,也没有弃考的选项。因此我们知道,这里面所有百分比的基数,都是a) 参加了高考,并且b)考取了大学的考生——这是一个隐含信息。

  • 又一个隐含信息

此外,我们再看图标的横坐标。横坐标最左一栏是前1%,第2栏是前5%,可是清华北大部分的分配前5%却比前1%少。由此可见所谓的5%应该是1%-5%,而且每一栏表示的都是分段概率,而不是累计概率——另一个隐含信息。

同理,横左边的6个部分应该是1%,1%-5%,5%-20%,20%-50%,50%-80%,80%-100%,才是唯一合理的解释。上面图表中的横坐标的书写方式是不对的。

  • 忽略不严谨

其实,如果仔细看会发现,把图中每一列四种颜色对应的百分比相加,也不是全部都等于100%,原图中“前50%”和“后50%”两列的百分比总和都是101%。这就有些自相矛盾了,横竖怎么能没有个全集呢?!

不过因为,只有两列差1%,我们可以认为是误差,也许是每个院校具体统计百分比时四舍五入出了一点小差错,此处暂且忽略,就将其当作100%看待。

(如果看到这里你已经打算弃文了,那就请直接拖到最后,看最后一段。)

提取图表数据

我们根据上述种种理解,可以把图-1翻译成下面这个表格:

B: 家庭收入在全社会家庭收入中所处位置

C: 录取院校类型

D: 收入段内被录取考生按录取院校类型划分所占该收入段全体考取考生的比例

B

C

D

前1%

北大清华

0.3

前1%

部属211

0.39

前1%

部属非211

0.08

前1%

北京市属

0.23

1%-5%

北大清华

0.27

1%-5%

部属211

0.41

1%-5%

部属非211

0.09

1%-5%

北京市属

0.23

5%-20%

北大清华

0.24

5%-20%

部属211

0.42

5%-20%

部属非211

0.1

5%-20%

北京市属

0.24

20%-50%

北大清华

0.22

20%-50%

部属211

0.44

20%-50%

部属非211

0.11

20%-50%

北京市属

0.24

50%-80%

北大清华

0.12

50%-80%

部属211

0.51

50%-80%

部属非211

0.16

50%-80%

北京市属

0.22

80%-100%

北大清华

0.12

80%-100%

部属211

0.59

80%-100%

部属非211

0.09

80%-100%

北京市属

0.2

表-1

重绘图表

那么实际画出来的等高柱形图应该是这样的:

图-2

图解释义

这样一张图,只能比较各个收入段内各类院校录取比例的分布,不能表示不同收入段家庭出身的孩子,对某一类型院校教育资源的瓜分情况

左数第一列最上面那块蓝黑好大一块,扎眼!但它并不能说明收入前1%家庭的孩子占用了清华北大资源的很大一部分。

实际上,这样一张图真的不如几个分别的饼图说得清楚,比如下面几个:

图-3

如何揭示不同阶层对教育资源的分割

如果,我们想看各个不同收入段家庭的孩子,对于不同类型高等教育资源的占据状况如何,该怎么办呢?

  • 数据缺失

想看清这一点,仅有目前这些数据是不够。我们还需要知道一项数据:每一个收入段被录取的考生人数,占全部被录取考生总数的百分比。

可惜,这一点,现在我们不知道。

  • 现有数据

我们能知道的,仅仅是各个收入段家庭在社会总家庭中所占的比例,如下:

E: 所属收入段家庭数在社会总家庭中占比

B

E

前1%

0.01

1%-5%

0.04

5%-20%

0.15

20%-50%

0.3

50%-80%

0.3

80%-100%

0.2

表-2

  • 考虑数据替代

能用家庭数代替人口数吗?鉴于北京每一年的考生也是在万人级别,基数已经不算小,同时,近二十年的考生又基本上都是独生子女,我们暂且以家庭比例代替适龄高考(18岁)人数比例,是可以的。

  • 数据替代的问题

但是,从这里又有两个问题:

1、各收入段家庭子女参加高考的比例不同。

适龄参加高考的人,不一定真的去参加高考——很多富裕家庭,已经在多年前就看不上高考,选择直接送孩子出国。而经济困难的家庭,则有一定比例读中专和职高的学生。

收入前1%的家庭也许只有一半的孩子参加高考,最后20%可能有多一半参加,而20%-50%的家庭也许95%的孩子参加。

2、不同收入段家庭子女参加高考的录取比例也不同。

即使北京地区近些年录取率颇高,有70%还多,但毕竟不是所有参加高考的考生都能被录取。

这两个问题在没有数据的情况下,我们凭自己是无法解决的。因此,也就不可能根据这个图表本身得出一个资源占有比例图。

  • 示意性数据替代

但是,为了说明:如果要看资源占用比例,图表应该是什么样子的。我们姑且先忽略不同收入段家庭孩子选择和考试能力的差别,且用家庭数代替被录取考生数,做个图出来看看。

生成数据构图

这样的话,我们就需要把表-1扩充一下,变成下表:

F:所属收入段被录取考生人数在当年被录取考生总人数中的占比; F=E

G:所属收入段考生考取该类型院校的人数在全体被录用考生中所占比例; G= D * F

H:考取该类型院校考生在总录取考生中的占比;H = Sum(G by C)

I:所属收入段内录取考生对于该类院校资源的占有比例; I = G/H

表-3

根据它,我们来做一个不等高的柱状图,如下:

图-4

这样的话,六列中相同颜色的柱状色块,就大小可比了。看看第一列最上端代表“清华北大”的棕红色色块,其实没那么醒目吧。

前1%家庭的孩子,就算全部参加高考并都考取,也不过就瓜分清北资源的不到2%而已。

出问题啦!

但是等一等!哪里不对吧,我们把表-4提取一部分出来看看:

C:录取院校类型

H:考取该类型院校考生在总录取考生中的占比

C

H

北大清华

0.1758

部属211

0.4863

部属非211

0.1184

北京市属

0.2255

表-4

发现问题了没有?怎么可能考上北大清华两校的考生占全部录取考生的17.58%呢?!

我们随便去查查历年的高考数据,任何一个省市地区,北大清华两校的录取人数从没有超过过该地区录取总人数的1%啊!

怎么可能差这么远呢?!哦,我知道,一定是在做“示意性替代”的时候出了问题,不能直接用家庭收入占比来代替考生人数,应该每个收入段加一个系数,这个系数是该段内家庭孩子实际被高考录取的比例,就是像下面这个:

F' = E * x(i)

G' = D * F * x(i)

表-5

嗯!一定是这样的!

要解x1 ~ x6得列6元1次方程,而且条件严重不够,怎么解呀?头疼~~

这里一定要看!!!

我们回过来看看最开始的那张图(图-1)吧。大家发现没有,它把整个社会所有人按家庭收入分成了6组,而每一组考取清华北大的比例全部大于等于12%。

也就是说,无论x1 ~ x6如何取值,所能改变的,也仅仅是被录取的总人数而已。而无法使某一类院校的录取人数在录取总数上的比例,小于6组中该类院校录取比例最低的那一组的比例值。

这说明什么呢?说明:图-1根本就是假数据!

枉我们心心念念千方百计找各种理由,想说明它是真的。到头来,居然还是假的!

既然是假数据,笔者为什么不早点说呢?因为,如果那样的话:

1、就没机会讲解等高柱状图、饼图和不等高柱状图的区别了。

2、直接告诉你的话,你印象不深。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-06-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智汇AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯问卷
腾讯问卷是专业的在线问卷调查平台,支撑了腾讯核心业务的⽤户、市场、产品研究工作。平台提供基于数据收集的专业调查研究解决方案,覆盖问卷调查、信息上报、在线测评、在线考试、360度评估、投票打卡等工作场景,致力于为客户提供高效的洞察决策工具。同时平台还拥有超百万级的真实样本用户,可以提供高效、精准的问卷有偿投放服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档