从烟民不易得新冠病毒，讲什么是数据的显著性差异

文章来源：企鹅号 - 一麾

今天被一个消息震惊了，伦敦大学学院最近的一项研究表明，烟民比不吸烟者更不易感染新冠病毒。下面这个图显示的就是：

图中显示，

中国：感染新冠的人之中只有3.8%是吸烟者，而整体人群的吸烟者比例达到52%。

美国：感染新冠的人之中只有1.3%是吸烟者，而整体人群的吸烟者比例达到13.8%。

今年3月份还有份研究表明，O型血不易得新冠。样本是武汉市金银坛医院的1775名新冠肺炎患者，以及武汉市3694名正常人的血型分布，我们整理出来表格对比一下：

当时有人调侃说这个研究有什么用，还不如做点别的。但是从统计学角度来看，这个研究发现，是非常有价值的。

揭示事物奥秘的动力，往往来自于好奇与发现；新的科学理论的产生，往往是由于旧的理论无法解释某些现象，比如牛顿经典力学无法解释观测到的星际现象与按照理论计算出来的差异，才有了相对论的提出与验证。

从新的现象思考新的理论，这是科学家要做的事；从旧的理论来解释自然现象，这是在校学生的思维。

下面说正题，这两组现象的数字差异为什么有意义，以及什么是显著性差异。

用通俗的讲就是，分布有些不同，是偶然现象，还是非偶然现象？

（以下两段比较教科书，了解的、不了解的都可以略过）

统计学上，显著性检验的定义：

“显著性检验（significance test）就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设（备择假设）是否合理，即判断总体的真实情况与原假设是否有显著性差异。”

教科书式的解释就是：

“显著性检验是针对我们对总体所做的假设做检验，其原理就是“小概率事件实际不可能性原理”来接受或否定假设。抽样实验会产生抽样误差，对实验资料进行比较分析时，不能仅凭两个结果（平均数或率）的不同就作出结论，而是要进行统计学分析，鉴别出两者差异是抽样误差引起的，还是由特定的实验处理引起的。”

举个日常生活中的例子：

住在两个相邻的小区（小区A、小区B）的初三学生，每月月考，现在有6个月的数学学科成绩数据。小区A有4个月平均成绩高于小区B，有2个月成绩低于小区B；总体上，小区A的整体平均分，高于小区B。是否说明住在A小区的学生数学学习比B小区的好？

涉及到决策：为了孩子，我是否应该从B小区搬到A小区？

这个就涉及到了统计分析，A小区的学习成绩是否显著高于B小区？说得通俗些就是，A小区成绩高于B小区，是不是偶然现象？

a. 如果统计学上不具有显著性差异，那么就说明"小区A成绩高"是个偶然现象，两边成绩其实没什么差异。

b. 如果统计学上具有显著差异，那么"小区A成绩高"不是个偶然现象。有需要的话，就必须分析原因。

比如，可能的原因或许有：

（1）A小区富裕些，补课的孩子多；

（2）B小区最近在施工，影响了孩子的休息；

（3）B小区有几个不学习的坏孩子，影响了孩子学习；

如果只是补课的原因，那么你就不需要搬家，因为你家孩子也一直在补课；如果是因为施工，那就要考虑怎样消除影响；如果是周边环境原因，那就要考虑搬家事宜了。原因找到了，才能对症下药。

再回到O型血的人不易得新冠。

我们看到，O型血正常人群比例33.84%，新冠样本中比例为25.80%，统计学计算后，有显著差异；而AB型血正常人群比例9.10%，新冠样本中比例为10.03%，计算后，没有显著差异。

就是说，AB型血新冠样本比例高，很可能是偶然现象；而O型血新冠样本比例低，可能是有原因的，需要科学进一步研究。

- THE END -

如果你觉得文章很棒，对你有所帮助或启发，可以关注作者的微信公众号：一麾（ID：gongzhonghaoyihui），订阅更多的优质原创推文！

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货