从混沌里寻找有序-读《统计学七支柱》

一直有个想法,要结合人的心理情绪跟统计做下研究,然而人生的智慧高峰早已在高考阶段已经过去,该忘的也忘得差不多了,于是找本科普阅读从根本来了解一下,也尝试活跃下思维。

关于均值和最小二乘,统计中根本的根本。每个方法都有利有弊,probs and cons。取均值会造成信息缺失,那么可以改进的方法应该是在取均值前做适当的分类,根据特征分类。然后把分析需求作为一个背景,去寻找一个适合的分析量和方法。

文中说到英尺的概念,似乎这是均值的一个反向,把均值或者说众数制定成一个标准,反过来去度量个体。

通俗地介绍了中心极限定理,关于精度信息不会随着数据的增加而产生线性积累。也就是说过量的数据边际效用会降低。这个观点立马反驳了大数据的exponential给数据分析带来无数好处说法。不过话说回来,计算能力跟数量都上去了,也确实能提高精度,发展跟前进就是不断的精益求精吧。

接着又复习了一下极大似然和置信度的由来,有点哲学跟狡辩的味道。

挺有趣的从简述几个数学家的历史,讲了两组变量之间t检验这种统计方法的由来,其本质是一种数据之间相互的比较,而跟外界无关。从相互比较衍生出来的周期理论,原来早在十九世纪六七十年代,好多人就看到了10.5年为一个周期的商业和经济增长,有趣的是把太阳黑子周期跟粮食作物周期以及商业周期联系起来,似乎有点牵强似乎又有点道理。

更有趣的一个统计现象,回归,居然是从为了拯救不完善的达尔文进化论而发现的,统计学居然跟遗传学息息相关。

统计除了根遗传学进化论有关,跟哲学也有很大渊源。哲学家乔治·伯克利1710年这样写道:“思想的联系并不隐含着因和果的关系,它们只是标记事物的一个记号或符号。” 强调的是相关关系不代表因果。

三分律,一个没听到过的历史统计名词,属于暴力分解,应该是在工具和计算能力不够时代的一种简化统计方式吧,已经被抛弃具体就不得而知了。

关于设计,设计统计实验的计划,分析和执行方法。令我惊讶的是阿拉伯医学家在1000年之前就提出了详细的医学实验规则,控制影响因素。

一种科学的思维或者说研究的思路和方法比结论或者发现更重要。统计的第七支柱,残差,就来自于研究偏离的方法,感觉还有很大值得深入的发展空间。

如果说以前学概率统计属于知其然不知其所以然,那么这本书就是所以然的由来了。从历史,哲学,天文,社会,医学等等方面引导出了统计的方法和用途,科普一下,还不错。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20181127G1WV0Y00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券