现代统计学的发展史

作者:戴久永 遇见数学(meetmath)编辑

「统计」这个名词的意义因人而异,对一般人而言,统计是任何方面专家们用以支持其论点的一大堆数字;对于略具常识的人来讲,这个名词代表用以摘要和解释一堆数据如计算平均数(mean) 与标准差(Standard deviation) 的程序之类的概念。但是对于从事统计工作的人员而言,统计是依小量数据(样本)所提供的资料以估计预测某研究对象如群体的方法。或者更广义地说,统计为面对不定状况制定决策提供方法的科学。

虽然统计的起源可追溯至十八世纪甚至更早,然而统计学主要的发展却迟至十九世纪末叶二十世纪初期才真正开始。到了四十年代才逐渐成熟,统计学和机率论的关系异常密切,事实上任何统计问题的研究都必须牵涉到机率论的运用,因为后者实为前者的主要工具。

统计人员对如下所举之类问题的答案深感兴趣:是否接受本批送验成品?吸烟与得癌症有关吗?张三会于下届选举中获胜吗?为了回答上述问题,我们必须由具「代表性」的特殊状况以「了解」一般的状况,由样本「推测」群体。因此,由统计人员所推测得到的结论都不是绝对肯定可以接受。事实上,统计人员的职责之一是量度他所得结论肯定的程度,但是我们不能以为统计的缺乏肯定性而误认为统计数学不严密,因为构成统计基础的数学是机率论,它有固若磐石的数理化基础和经严密证明的定理。

一般而言,我们可以把统计问题分成两类: 叙述统计推论统计,简单的说:任何对数据(即样本)的处理导致预测或推论群体的统计称为推论统计。反之,如果我们的兴趣只限于手头现有的数据,而不准备把结果用来推论群体则称为叙述统计。举个例子来说,依据过去十年来的统计,每年来华观光的人数,平均每人在台停留的日数,平均每人每天在华的花费,十年内那一年创最高记录等等都是属于叙述统计的范围;但是如果我们根据这些年所得的数据来预测来年可能的观光客人数就是推论统计的问题了。十年前的初级统计课本大多谈叙述统计,如今由于计算机的盛行,这部份的工作大多利用计算机来解决,称为数据处理,而一般统计书的重点别放在推论统计。

大致说来,推论统计分为三大类,就是估计,检定和分类与选择。譬如说,张三想竞选台北市议员,他想估计一下可能有多少人会投票给他,于是他以随机抽样的方式,询问100位有投票权的市民的意见,而后根据所得结果推论可能全市有多少人会选他,这是估计问题。又如某家庭主妇想知道她心中怀疑洁王牌洗衣粉的洗净力是否比爱王牌洗衣粉强,首先假设洁王牌比爱王牌好,然后经过试验来测定这假说是否成立,在本例中,我们并不想估计任何参数,而只是想检验事先所叙述的假设是否成立其可靠性有多大,这就是检定问题。还有,新制造的三种药品中那几种比目前所用的这种药品有效呢?这是选择的问题。如果我们把统计设想为经由抽样以制定决策的科学,那么我们似乎宜以十九世纪末期高尔顿爵士(Sir Francis Galton, 1822~1911)和卡尔·皮尔逊(Karl Pearson, 1857~1936)的论述做为它的起点。从那时开始,现代统计理论的发展可略分为四大思潮,在这四大时期,每一阶段都是以一位伟大的统计学家的专著为先导[注1] 。

第一阶段随着1899年高尔顿的《Nature Inheritance》一书的出版而展开序幕,该书除了其本身的价值外,还引发了杰出的统计学家卡尔.皮尔逊对统计学的兴趣。在此之前,皮氏只是在伦敦大学的大学部(University College) 执教的数学教员。当时,这「所有知识都基于统计基础」的想法引起了他的注意。

1890年他转到格里辛学院(Gresham College),在那里他可讲授任何他希望讲授的课程,皮氏选了一个题目「现代科学的范围与概念」(the Scope and Concepts of modern Science) 在他的授课中他越来越强调科学定律的统计基础,后来他全神集中致力于统计理论的研究。不久他的实验室成为世界各地人们学习统计和回国点燃「统计之火」的研究中心。经由他热心的提倡,科学工作者逐渐由对统计研究不感兴趣的境地转而成为热切地努力发展新理论和搜集并研究得自各方面的数据。人们越来越深信统计数据的分析能为许多重要的问题提供解答。

海伦·华克(Helen Walker)描述皮氏小时候的一则轶事,生动地显示他往后事业中所表现的特色[注2] 。有人问皮尔逊他所记得最早的事,他说「我不记得那时是几岁,但是我记得是坐在高椅子上吸吮着大拇指,有人告诉我最好停止吮它,不然被吮的大拇指会变小。我把两手的大拇指并排看了很久,它们似乎是一样的,我对自己说:我看不出被吸吮的大拇指比另一个小,我怀疑她是否在骗我」。

在这个单纯的故事中,海伦华克指出「不盲信权威,要求实证,对于自己对观测数据的意义的解绎深具信心,和怀疑与他的判断不同的人态度是否公平」这些就是皮氏一生独具的特征。

表一

这个第一阶段的特点就是人们对统计的态度转变了,统计的重要性被科学界所承认。除此之外,在统计技巧上也有很多的进展,我们利用上面这个十二个人的身高和体重的数值表介绍一些最基本的统计观念,其中身高 X 以公分为单位,体重 Y 以公斤为单位。

为了对这组资料得到一点概念,我们把它列成图形。英人普莱菲(William Playfair, 1759~1823)被公认为将图形表示的概念介绍到统计学的第一人。他的著作,大多为关于经济学,多采用图形如直方图、条形图。在我们上述问题中,用次数图就能很清楚地表示出来,图一就是身高 X 的次数图,体重 Y 的次数图也很容易表示。有兴趣的读者不妨一试。虽然这类图形能帮助我们的直觉,但是如果想对这些数据更一步了解,我们必得进一步用某些量来描述它们。在这类数量中最重要之一是对于集中趋势的测度。最早的集中趋势的测度实际上可追溯至古希腊,是算术平均数

,即

其中 x i 代表变数 X 的数值,n 为观测值的总个数,计算结果得到身高的平均数

为166.66,体重的平均数

为63.83,为了理解这个观念的特性,我们把它的定义改写成

其中 f j x j 出现的次数,并对不同的 X 变数 x j 值求和。

假设有一根无重的木杆,其上刻着变数Y的各不同值的刻度,并且设想在 x j 处挂着质量

的物品,则整个体系的质量为 1,而

为质量重心,也就是说如果把支点设于

,则整个体系会趋于平衡,以本例的身高而言,其体系如图二所示。

这种对平均数的解释在以后我们思考连续分配观念时,很有帮助。

虽然中位数 (median)观念可能早已有之,但是迟至1883年才经由高尔顿把它引入统计,成为集中趋势第二种测度[注3] 。所谓中位数就是所有观测值依大小排起来,中间的那个数,若是偶数个数就是两个中间数的平均数,在我们例子中身高的中位数为165。

另外还有一个集中趋势的测度是众数,1894年左右由卡尔.皮尔逊所介绍。众数如果存在的话,就是出现次数最频繁的数值,如果两个或两个以上的数值出现次数相同,众数就不太有意义了,在我们例子中体重的众数是62。

如果变数 X 的分配是完全对称,即其次数图完全地对称于一垂直线,那么平均数、中位数和众数(如有一众数存在的话)会重合为一点。读者们应注意,反过来说并不成立。也就是说不对称的图形也可有平均数,中位数和众数重合的情形(即平均数、中位数和众数重合并不保证图形为对称)。

对大多数的目的而言算术平均数是最常用的集中趋势测度,这当然有它学理上的意义。虽然有时候计算相当费时,中位数也有它的优点,它不受少数极端值的影响。例如在我们的例题中,若把一个身高180公分的人换成一个200公分的人,平均数就会受到很大的影响,而中位数却全然不变。

其次我们谈一下「离差」(dispersion) 的测度,它是数据以平均数为准对于分散程度的测度。最早这种测度大概是贝塞(Bessel)于1815年用于有关天文学问题的「可能误差」。目前最通用的是「标准差」σ,这个名词是1894年卡尔.皮尔逊所创。

离散变数 X 的标准差定义为

由这个公式可以看出若数据非常分散,

值会很大,但当数据集中于平均值附近时则

会小。

为了介绍相关的观念,我们回头再仔细看一下表一中的身高和体重,数值显示这两个变数似乎有某种相关存在,根据常识,高的人通常要比矮的人重,在这些数据点绘在直角坐标的平面上,可以看出它们之间的关系,称为分布图(参见图三)

如果它们之间为线性关系,则点的趋向会呈现在直线的附近。

在十九世纪末叶,有人问高尔顿爵士这种两组数据之间的关系是否可以测度?他想出了相关的观念。但是我们现在所用的相关系数ρ 却是卡尔皮尔逊所创,其定义为

分别为X -组资料的算术平均和标准差。

经由简单的代数运算,我们可以证出ρ的数值介于-1与+1之间,0值表示没有直线关系存在,

表示数据应在正斜率的直线上,-1表示数据在负斜率的直线上,在

附近的相关系数表示两变数有相当高的直线关系,接近0的相关系数表示两变数没有直线关系,在我们的例子中,ρ大约为0.9。注意ρ是直线关系的测度,数据可能形成一团,这时

值会很小,然而它们虽不是直线相关,但却无疑是相关的。

高尔顿是著名的演化论者达尔文的表亲,曾为达尔文做过一些统计工作。我们在上节曾提到他对相关概念的研究,但是教师们最不会忘记的高氏的贡献是他首创把成绩评分与常态曲线拉上关系。

常态曲线(正态曲线)至少可追溯至1733年的棣美弗(Abraham De Moivre)的导证,是一个统计上非常有用的观念。它的方程式为

其中 μ 和 σ 为参数,恰巧等于它的平均数和标准差。一般人把任意「钟形曲线」都想成为常态,事实上这种观念并不正确。其他函数例如

的图形也是钟形,但是却全然没有常态曲线所具有用的特性。常态曲线的方程式看起来似乎相当复杂,但是在数学家们看来却是所有曲线中最单纯「最安分」的曲线之一。图四就是一条特定常态曲线的图形。

常态分配的优点是不论其平均数 μ 和标准差(

)之值为何,均可经过标准化

的变换,转换成平均数为0和标准差为1的标准常态分配。如果把在常态曲线下由

的面积积分的话,结果是1。大约有三分之二的面积在以平均数为中心左右一个标准差之间。在任意区间

之间常态变数的机率的求法就是等于求在这区间之上,常态曲线之下所围成的面积,这种数值可由任何标准的数表中查出。

早先在谈离散分配的时候,我们曾经提到算术平均数可以看成是总质重等于1的离散质点体系的质量重心。刚才我们提到的常态曲线是一个连续分配的例子,依据类比的方式,我们可以把常态分配与一根理想化向两端无限伸长质重为1而其密度则为依决定常态分配的函数f而变动分布的棒相联接。依据微积分,这种杆棒的质量中心是

这个公式正是我们用来定义连续分配的平均数的式子。或许很出人意外的,并不是每一连续分配都有平均数,因为上式的积分有时可能不存在。例如柯西分配,其方程式为

就是一个平均数不存在的分配,有兴趣的读者可试着验证它。

同理,依据离散变数的标准差公式,我们可以定义出连续分配的标准差为

如果用这两个公式来计算一下常态分配的平均数和标准差,经由相当简易的积分运算可以得出它们分别是它的两个参数 μ 和 σ。除此以外,高尔顿、皮尔逊和他们的「门徒」还创出回归观念和卡方试验。大约在1915年,一个新名字出现于统计界,费雪(Ronald Aylmer Fisher, 1890~1962),他在该年发表关于样本相关系数统计量的精确分配的论文引导进入统计史的第二时期。紧接着他的一系列的论文和专书给统计调查带来一股新动力。有人把我们如今所采用的统计理论的半数归功为费氏的成就,在费氏和他的同仁最卓越的成就中,包括适用于小样本的统计方法的发展,发现许多样本统计量的精确分配,假说检定之逻辑原则的简明陈述,变异数分析的发明和对一个群体参数的数理统计量中如何取舍的准则的介绍。据说费雪是个早熟的孩子[注4] ,在很小的时候就已精通如球面三角之类艰深的学问。他曾对物理科学深感兴趣,1912年自剑桥大学得到天文学的学士学位。天文学中的误差论(theory of errors)使他对统计问题发生兴趣,我们提到1915年他进入统计界因为那年他发表一篇关于样本相关系数的分配的文章。这篇文章启始了对各种样本统计精确分配的研究,费氏在这方面颇享盛名。在这方面的研究,他深受敏锐的几何直觉的引导,得出的很多结果,后来经几个闻名世界的最杰出数学家的研究,证明了其正确性。

费雪还有很多其他的贡献,早先我们曾提到他介绍了一样本统计量是否为一个群体参数的好估计量的判定准则,包括了一致性,效率性和充足性等概念就是在1921年一篇重要文献中提到的。在这类文章中,他还曾介绍最概估计量(maximum likelihood estimation) 的观念。

1919年费氏离开他在中学教数学的工作,转至罗森斯得农业试验站(Rothamsted Agricultural Experimental station),在这里他发展出现在世界通用的抽样技巧和随机程序。他的两本名著《Statistical Methods for Research Workers》和《Design of Experiments》分别于1925年和1935年出版,对于统计有重大的影响。后者的第二章曾列入《数学世界》 [注5],在这篇非常引人入胜的文章中,费氏提到有一位女士声称她能分辨出她的茶中牛奶是在泡茶之前或之后加入的,而后他描述一种实验计划来证明或否定该女士的声称。

为了想答覆关于群体的问题,由实用的观点来看,我们必须由群体中选取样本,然后依据样本所提供的资讯推论母体。母体所涉及的如母体均值μ和标准差σ都是未知,假设有一个样本被很适当地选出(如何选法是一个很重要的统计问题),依据样本可以得出相当好的母体参数或某量的估计值。早先我们曾提到费雪提出母体参数的好样本统计量的判别准则,我们只是很简要的提出,假若( x 1 ,

, x n )代表一组由母体均值为μ、标准差为σ的群体中选取的样本,则分别定义如下的样本平均数

和样本标准差S

用这些统计量以估计μ及σ,会满足费雪所订的大部份准则[注6] 。

如果我们由一个群体取出很多组样本,并且每组均计算

值,我们就可得到很多不同的数值,而这些数值会趋于接近群体平均数μ。这样看来,

也是一个变数呈某种形式分布,这就引起了一个重要问题:若已知群体变数为某种分配,则样本平均数又如何分配?下述定理,我们仅叙述而不证明,可回答部份这个问题。

定理:若母体变数的分布函数为平均数μ和标准差σ的常态分配,则样本平均值

亦为常态分配,其平均数为μ,标准差

n为样本大小。

回想标准差的重要性,我们的结论是当样本大小越大,则

值接近μ的机率也愈大,如图五所示。在应用这个定理时,受到一个严格的限制,因为实际上的任何群体是否确实为常态分配很可怀疑。有很多群体变数甚至不近似常态分配,但有一个在机率论上最著名的定理,也是在所有数学中最著名的定理之一可以部分帮助解决这个问题是中央极限定理,其中一种形式叙述如下:

  • 定理:若一母体变数不论其分配如何,只要有平均数μ和一标准差σ,则

约近似为平均数为μ和标准差

的常态分配,而且当样本数n越大时,

的分布越近似常态分配。

中央极限定理有一段相当长的发展史,1773年棣美弗证明其第一种形式即考虑掷硬币只有两种可能出现的情形,我们在前面所说的形式是1922年凌德柏(JWLindeberg)所述[注7] 。近来俄国数学家甚至给出

以常态分配为其极限分配的充要条件,把本定理推广至其极致。为了显示统计学家对中央极限定理的用法,我们来看由霍尔(Paul G. Hoel)编著的统计教本[注8]中的一个典型问题「某细绳制油商由过去的经验发觉某种细绳的平均耐拉力为15.6磅,标准差为2.2,现试将这种细绳的制造过程时间缩短,而后取50条细绳为样本做试验。结果发现其平均耐拉力减为14.5磅,试问依据这个样本,是否应下结论为「新制造程序对绳子拉力有坏的影响?」」

统计人员称这种问题为假说检定,我们必须检定假说

,虽然制造程序改变,标准差也很可能改变,但是我们仍假设耐拉力X的标准差为2.2磅,现在我们用到了中央极限定理,不论X如何分配,

为平均数μ和标准差

的近似常态分配,或者说

为平均数0和标准差1的标准常态分配。然后我们查数值表,发现

远离15.6,如果假说H 0成立的话,

的机率仅0.0002,因此我们弃却H 0而接受H 1。依照通常在H 0成立的假说下,

值出现的机率仅0.05时即弃却H 0的原则,由数表可知当

小于15.09,我们就应判定弃却H 0,任意小于15.09的数值称为在临界区域。

我们再回头提一下假设新制程的标准差σ不变的误差机率。事实上,这时σ已不是一个已知数,但是我们可以计算出样本标准差S,在1908年化学家高塞特(William Gosset)以Student的笔名发表他发现的统计量

(注意σ被S取代)的分配,他指出若X为常态分配,则t为自由度n -1的student t分配,这种分配相当重要,其分配数值在一般统计数表中均有列出。虽然高塞特于1908年发现t分配,但是他的结果只是一种猜测,直到1926年才由费雪加以严密的证明。在此X为常态分配这条件非常紧要,但是即使X仅为近似常态分配,统计学家发现当σ为未知,尤其是当样本数n值很小时,非常适宜采用t分配。当n相当大时,S和σ的差别越来越小,因此不太需要使用t分配数值表。

第三个时期以为在1928年聂曼(Jerzy Neyman)和伊根.皮尔逊(Egon Pearson,卡尔.皮尔逊之子)的共同论文多篇的发表为开端,这些论文介绍和强调诸如验定问题中的第二种错误,检验的检定力和信赖区间之类的观念。在这期间,工业界开始大量采用统计技巧,尤其是与品质管制有关的统计。并且由于人们对调查工作的感兴趣导向对抽样理论与技巧的研究,1928年聂曼和伊根.皮尔逊的论文为检定与估计理论带来一种崭新的面貌。包括对许多费雪早先提出的想法的重新加以整理和修正,例如在细绳制造商的问题中,我们早先得到的结论是:若一样本的样本平均数值小于15.09则弃却假说H 0。聂曼和皮尔逊提出如下之类的问题:为什么我们要设15.09以左为临界域?为什么不取0.025在分配曲线极左的面积和0.25在分配曲线极右的面积成「双尾」(two tailed)临界区域?

于选取临界域时必须采何种准则?我们必须要用直觉还是用严谨的数学?我们得到如图八的结论牵涉到两种不同型态的错误,聂曼和皮尔逊命名为第一种错误和第二种错误。聂曼和皮尔逊总结他们的发现归纳成为下述原则:在所有具有相同第一种错误的试验(临界域)中,我们选用具最小第二种错误的临界域。

H 0为真

图八

虽然本原则的应用相当复杂,聂曼和皮尔逊的影响使本原则及其相关的检定力函数成为重要的统计概念,并且发展出讨论这类问题的一般数学理论。

谈现代统计学的发展,实不能不提华德(Abraham Wald, 1902~1950)[注9] ,否则必定显得不完备。华德的第一篇论文关于目前常见的统计程序── 逐次抽样(sequential sampling)的出现第四时期的开始。这篇1939年的论文是华德一连串论文的起始,不幸正当他的创新力处于颠峰时却由于飞机失事死于非命。华德最大的贡献之一是他介绍一种对统计问题的新看法(1945),那就是以对局的观点去处理统计方面的问题,这就是今日所称的统计决策理论(statistical dicision theory)。从这个观点,统计被视为以自然为对手的对局的艺术,这是一个相当广义的理论,虽然它牵涉到相当复杂的数学,但是平心而论,我们可以说大部分目前的统计研究人员发现采用这种新观点非常理想。华德对统计理论发展的方向有重大的影响,他的「门徒」们多成为今日统计界的领袖人物。

华德诞生在罗马尼亚,是正统的(orthodox) 犹太世家,由于它的宗教信仰,使他受教育的机会受到某些限制,而必须靠自修弥补。他自修的结果竟能对希尔伯特(Hilbert) 的《Foundation of Geometry》提出有价值的见解,他的建议列入该书的第七版中,这一事实充分显示了他的数学天赋。后来华德进入维也纳大学并且在仅修了三门课之后就得到博士学位。在这个时期的奥地利,由于政治上的因素使他无法从事学术工作,只好接受一个私人职位,职责是帮助一位银行家增广高等数学知识,他因此对经济学深感兴趣,后来成为经济学家摩根斯坦(Oskar Morgenstern) 的亲信助理。摩氏曾与冯纽曼(John Von Neumann) 共同合作从事研究并奠定了对局论(game theory) 的基础。

华德在二次大战前到达美国,他的父母和姊妹不幸没有逃出来,结果死于纳粹的瓦斯房。华德由于对经济学的兴趣接触到统计学,逐渐转向从事统计学的研究,不久竟成为一位杰出的理论统计学家。除了统计决策理论之外,华德对统计还有很多重要的贡献,在此我们提出主要的一个,就是逐次分析。虽然这个理论可能不是他所首创,但却是他发展完成的(1943)。这个技巧在减少生产制程中的抽样数方面非常重要,二次大战期间曾被列为机密。

现在我们以工业方面的品质管制问题为例来说明逐次分析的观念,在逐次方法未发表之前,标准的抽样程序是由制成品中抽取定量的样本,然后依据样本中所含不良品数的多寡判定允收或拒收该批。这种程序忽略了关于制成品批的优劣资讯可由在抽样过程中不良品出现率的大小获得的事实。

在逐次抽样中,我们把抽样过程中可能发生的状况分为三类:

  • (1)大量不良品连续出现导致立即判定拒收该批
  • (2)大量良品连续出现,导致立即判定允收该批
  • (3)缺乏结论性的证据,因此必须继续抽样,图九是一个实例。

这三个区域的划分准则视所允许的第一种错误和第二种错误而定。在本例中,在查验第六十个制成品后才判定允收。

由图形中可见,这种抽样方法可能很快就能决定是否允收,也可能在中间区域停留很久的时间,但是华德证明允收或拒收的决定能于有限步内达成的机率为1 ,实际经验显示逐次抽样和传统的固定样本大小的程序相比在抽样费用方面约可节省一半。

除了上述四大统计思潮外,1933年俄国数学家柯摩哥罗夫(Kolmogorov) 发表《Foundation of the theory of probability》为统计学理论奠定了逻辑基础。在统计应用技巧方面,电子计算机的发展和使用是一大革命。十九世纪末叶开始,美国人口调查局(US Census Bureau) 每十年举办一次人口普查,后来,由于人口的渐增,人口调查局发现他们已越来越无法处理所搜集的成堆数据。贺尔瑞兹(Herman Hollerith) 想出许多利用打孔卡片(punched card) 记录数据的方法,并且发明机械能读这些数据和处置资讯(Information),在贺氏的指导下,1894年人口调查局的工作利用打孔卡和读卡机,提高不少效率。虽然1890年人口调查时,美国人口比1880年增多了约百分之二十五,但是工作完成所费的时间却仅为其三分之一。

电子计算机于二次大战后发展一日千里,1950年后渐进入实用阶段。计算机的出现不但使统计计算工作简化,而且快捷。尤其是有了统计成套程式(Statistical package) 以后,更为方便,只要知道应采用何种统计方法就能使用。1972年惠普(Heweleit Packard) 公司发展出掌上型计算器(calculator),对于一般小统计问题的解决,更是方便,不必因为统计问题特地到计算机中心去。

统计为一科学方法,其可应用范围,遍及自然科学及社会科学的整个领域中的许多部分,大凡农业、工业、商业、教育、医药、政治、社会、经济等等许多问题无不适合采用统计方法处理,统计学传入我国虽已有相当时日,但是我国目前还只有政府机关较为重视,民间工商企业近年来虽然也渐渐讲求科学管理,但是大多未能应用统计方法。

原文发布于微信公众号 - 机器学习与统计学(tjxj666)

原文发表时间:2019-06-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券