前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【统计学家的故事】回归分析的创始人:弗朗西斯·高尔顿

【统计学家的故事】回归分析的创始人:弗朗西斯·高尔顿

作者头像
统计学家
发布2019-04-10 16:44:49
7K0
发布2019-04-10 16:44:49
举报
文章被收录于专栏:机器学习与统计学

弗兰西斯·高尔顿(Francis Galton,1822年2月16日—1911年1月17日),查尔斯·达尔文的表亲(高尔顿为达尔文的表兄),是一名英格兰维多利亚时代的文艺复兴人、人类学家、优生学家、热带探险家、地理学家、发明家、气象学家、统计学家、心理学家和基因学家。

1人物介绍

高尔顿一生中发表了超过340篇的报告和书籍,他在1909年被授与爵士。他在1883年率先使用「优生学」(eugenics)一词。在他于1869年的著作《遗传的天才》(HereditaryGenius)中,高尔顿主张人类的才能是能够透过遗传延续的。此外,他在统计学方面也有贡献,高尔顿在1877年发表的关于种子的研究结果中指出了回归到平均值(regression toward the mean)现象的存在,这个概念与现代统计学中的“回归”并不相同,但是却是回归一词的起源。在此后的研究中高尔顿第一次使用了相关系数(correlation coefficient)的概念。他使用字母“r”来表示相关系数,这个传统一直延续至今。同时他也发表了关于指纹的论文和书籍,被认为对于现代利用指纹进行犯罪搜查方面有很大的贡献。

2人物生平

高尔顿是一个优秀的发明家、气象学家、统计学家、心理学家。这么多头衔可以说明他的智力过人之处。同时他也出生在一个显赫的家族,他是著名医生和植物学家伊拉斯谟·达尔文的曾孙,查尔斯·达尔文是他的堂兄弟。他的父亲也是一位出色的银行家。也许正是这种显赫的家族环境让他走上后来的心理研究方向,成为优生学的研究者。

在他致力于各式各样的心理研究的时候,许多有志于心理学的学者都在德国按照冯特的心理学方向接受在那时称得上是正统的心理学教育。而高尔顿无论研究什么、怎么研究,完全都是从他的兴趣和爱好出发,因为那时候的英国并没有关于心理研究的支持。虽然他以一个业余爱好者的身份介入各个领域,但是他却非常出色。从孩童时代起,他就表现出过人的智力,但后来他读书时候曾为了成为一名优秀毕业生被困扰,甚至差点中断学业,直到他放弃这一想法。他开始步人心理学的研究是在他中年的时候。1859年,他的堂兄弟达尔文发表了那本著名的《物种起源》,里面重要的一个观点就是“物竞天择、适者生存”,虽然这项理论主要针对大自然,但是高尔顿却由此推想到人类。他认为也许就是这种进化过程,人类的聪明和优秀通过遗传进化下去,所以智力也是可以遗传的。他从自己的家族,以及自己读书时的困扰,“成为优秀毕业生的学生,家族都是一些优秀的人”这一认知得出一个结论,认为智力和才能的出色是会遗传的。

萌生了这种念头之后,他一直致力于这方面的研究,包括数据的收集、分析、统计。他在1869年的著作《遗产的天才》提出这种观点,并设想人的能力的分布是常态的,其差异是可以测量的。他在研究过程中,对各种类型的数据进行收集和归类,得出他的结论。为了进一步获得研究数据,他还制造设计了一系列测量人体一些感觉的器材,通过在展会上租赁摊位为参观者测量来获得相关数据。应该说,他在统计学等方面的能力为他收集和分析数据提供了基础,为心理学的研究开拓了许多方法。例如问卷调查、心理测试、对双胞胎进行研究都是他发明的研究方法。他对优生学起了启蒙促进作用,但是他的天赋遗传论后来却被某些种族歧视者作为种族政策的借口。他对心理学,尤其是美国的心理学的影响是巨大的,但是他这位非正统的研究人员却不曾被重视和赋予名誉,大家记得的都是那些创立了理论学说门派的学者,他的方法虽然为心理学的研究起了建设性的作用,却不曾成为一个里程碑。

在今天,许多青年都热衷于各式各样的心理测试和问卷调查,希望会有越来越多的人在使用它们的时候记得这些方法的创始人——拥有各式头衔的高尔顿。

3回归分析

“回归”是高尔顿在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应。因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。

1855年, 高尔顿发表《遗传的身高向平均数方向的回归》一文,他和他的学生卡尔•皮尔逊Karl·Pearson通过观察1078对夫妇的身高数据,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,分析儿子身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,两者近乎一条直线。当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系,分析出儿子的身高y与父亲的身高x大致可归结为一下关系:

y=33.73+0.516*x (单位为英寸)

根据换算公式1英寸=0.0254米, 1米=39.37英寸。单位换算成米后:

Y= 0.8567+0.516*X (单位为米);

假如父母辈的平均身高为1.75米,则预测子女的身高为1.7597米。

这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高平均增加0.516个单位。这就是回归一词最初在遗传学上的含义。

有趣的是,通过观察,高尔顿还注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个父母所生的儿子比其父要高,身材较高的父母所生子女的身高却回降到多数人的平均身高。换句话说,当父母身高走向极端,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高,即有“回归”到平均数去的趋势,这就是统计学上最初出现“回归”时的涵义,高尔顿把这一现象叫做“向平均数方向的回归” (regression toward mediocrity)。虽然这是一种特殊情况,与线形关系拟合的一般规则无关,但“线形回归”的术语却因此沿用下来,作为根据一种变量(父母身高)预测另一种变量(子女身高)或多种变量关系的描述方法。

回归的现代意义:

它要比其原始意义广泛的多。具体地说,回归分析的内容包括:

• 确定响应变量与预报变量间的回归模型,即变量间相关关系的数学表达式(通常称为经验公式);

• 根据样本估计并检验回归模型及未知参数;

• 从众多的预报变量中,判断哪些变量对响应变量的影响是显著的,哪些是不显著的;

• 根据预报变量的已知值或给定值来估计或预测响应变量的平均值并给出预测精度或根据响应变量的给定值来估计预报变量的值,即所谓的预报与控制问题。

4人物评价

高尔顿的学术继承人、统计学家、心理学家皮尔逊在提到高尔顿的博学时有个有趣的说法:“高尔顿比10个生物学家中的9个更懂数学和物理,比20个数学家中的19个更懂生物,而比50个生物学家中的49个更懂疾病和畸形儿的知识。”

美国心理学家赫根汉在评价高尔顿对心理学的诸多贡献时说:“很少有人能像高尔顿那样对心理学做出了这么多的‘第一’——第一个研究了遗传和后天教养对人的影响、第一个使用了调查问卷、第一个使用了词语联想测验、第一个进行双生子研究、第一个研究了表象、第一个进行了智力测验、第一个使用了相关统计技术。”

英国皇家统计学会在高尔顿去世后发布的讣文中说:“任何和他接触过的年轻人都不会忘记他的热情和平易近人的态度,他友善而自然的谈吐。他是少有的几个让你和他一接触就油然升起崇敬之情的人之一。”

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2015-05-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯问卷
腾讯问卷是专业的在线问卷调查平台,支撑了腾讯核心业务的⽤户、市场、产品研究工作。平台提供基于数据收集的专业调查研究解决方案,覆盖问卷调查、信息上报、在线测评、在线考试、360度评估、投票打卡等工作场景,致力于为客户提供高效的洞察决策工具。同时平台还拥有超百万级的真实样本用户,可以提供高效、精准的问卷有偿投放服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档