首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

戏说统计学习笔记(9)——结构方程模型

我们已经发出了李连江教授的《戏说统计》课程中的八篇学习笔记:相关分析、显著性检验、回归分析、多元回归分析、因子分析与量表构造、卡方检验、对数回归、最大似然估计。今天,我们将发出第九篇学习笔记:结构方程模型。希望我们的整理可以继续供大家讨论学习。

结构方程模型

提纲

一、什么是结构方程模型

二、结构方程模型的三个优点:

(一)证实性因子分析

(二)路径分析可以包括中介变量

(三)提高拟合程度

三、举例

一、什么是结构方程模型

结构方程模型最早应用于心理学领域,因为在心理学领域中的因变量和自变量都是由多个指标来测量的。如果要将这几个指标合并在一起,就需要建立一个量表。建立量表的方式有很多,但是都会遇到一个问题:如果先把几个指标变成一个量表,那么在这个过程中会有信息损失,有些在原生的状态下测得的东西变成量表之后会成为粗略的东西。在这个过程中会造成信息损失。因此发展出了结构方程模型。如果用某几个指标形成量表,再用量表去做回归分析是可以的,但是会损失很多信息。

还有一个问题是做普通的回归分析的时候,回归模块有一个假定:几个自变量之间一定是彼此相关的。理论上来讲,如果就假定这两个变量不相关,是不被回归的模块所允许的。而我们在做因果分析的时候,往往会面临这样的情况:我们有充分的理由或充分的理论依据认为这两个自变量之间不相关。那么这个时候我们就可以规定这两个变量是不相关的,但是在正常做回归分析的时候,是不能够这样做的。另外一个情况是,有一些因果链条,A的变化会影响C,但是A的变化不是直接影响C的,而是通过影响B来影响C。举个简单的例子,祖父对于孙子是有影响的,但是祖父对于孙子的影响不是直接的影响,而是通过影响孙子的父母一方。如果我们想分析祖父影响孙子,就要看一看祖父是怎样影响孙子的父辈,再来看怎么样影响到孙子。在这里有一个中介变量B。这用普通的回归分析是不能够得出结果的,而是需要做一个路径分析。我们需要画一个很精确的路径,从A到B,从B到C,这个也是结构方程模型可以解决的问题。

二、结构方程模型的优势

(一) 结构方程模型简单来说就是两个分析工具的结合。我们前面讲到的最主要的分析工具一是回归分析,可以帮助我们确定有没有独一无二的一一对应的相关关系;二是因子分析,可以允许我们用多个指标去测量一个潜伏的、看不见的变量(比如说一个人对于政治局势的态度,我们是通过看他怎么样看中国民主问题、国防问题等来看他内心深处对于政治的关心)。结构方程模型就是将回归分析和因子分析结合起来。证实性因子分析是我们先假定有一个因子,然后看从这个因子应该会影响到几个指标的情况。我们先将结构画出来,然后看数据里面是不是这样的情况,如果不是的话,就可以采取修正模型。证实性因子分析是一个学科到达相对成熟的状态时所做的研究,我们根据现在的研究和理论推断发现一个人有这样一种态度,这种态度会折射成几个方面的指标。比如说我们要想检测一个人对待同性恋的开放度,我们会设计一系列的指标,这些指标都是根据理论推断出来的,那么这些指标是否都是真正反映人内心的宽容度,我们可以通过看数据来判断是否符合。从先有理论,再看数据,这是一个证实性的过程。

(二) 另外一个优势是可以包括中介变量,通过观察A影响B,B影响C。(在第一部分什么是结构方程模型里有举例)

(三) 第三个优势是提高拟合优度,结构方程模型有一个特点是在做完模型之后,可以看出我们这个模型和数据是不是合身的。而我们做线性回归的时候,这一点是看不出来的。有人说我们是不是可以用判定系数来判断模型是不是合身,是判断不出来的,因为判定系数只能够告诉你这个衣服有没有遮蔽身体,遮蔽了多少的身体。可是这个遮蔽身体并不意味着衣服合身。比如穿衣服最重要的功能是蔽体,另外一种功能是保暖,如果我们关心的是保暖,判定系数只能告诉你这个模型所包含的几个变量可以告诉你保住一部分身体的温度,可是这个部分的身体到底是哪个部分,我们是不清楚的,如果我们想要保住的是胸部的温度,但是实际上保住的是70%腿部的温度,那么这个衣服就是不合身的。对于衣服是否合身,结构方程模型是有一个非常清晰的检验指标。

三、举例

在数据中看到的指标都是用方框来表示的,这些指标背后看不见的因子是用椭圆形来表示的,每一个箭头指的都是一个因果关系。例如,想要了解某人对于选举的爱好程度,当有了一个态度之后就会直接影响到某人怎么回答方框中的问题。所以椭圆形是一个自变量,方框是一个因变量,圆形是一个误差量。每一条线所表示的都是一个方程式,每一个方程式都是一个等式,每一个等式都是一个回归模型。为什么叫做结构方程,一个方程就是一个公式Y=A+BX+E。图中有5个回归公式,而这些公式是有结构的,是由同一个自变量影响到5个因变量,而在这5个因变量里面可以认为左边两个和右边两个是分别相关的,这些都是结构。所谓结构方程就是有结构的一系列方程。图中就是一个测量模型。在做常规模型的时候会将这几个指标汇合起来,变成一个量表。但是如果这样做就会损失掉一些信息。图中的测量模型就保全了可能会损失掉的信息。

图中的5个箭头中,会发现箭头旁有1,这个1是干什么的呢?这个1就是限定自变量与该箭头所指向的因变量之间的回归系数为1。我们通过学习知道,如果回归系数是1的话,意味着自变量变化一个单位,因变量就变化一个单位。我们假定对于选举的偏好是一个量,但是这个量的单位是不清楚的,它是一个隐含的东西。而因变量是有一个很明确的测量单位的。在此划定1,是相当于从因变量这里借了一把尺子,然后自变量就有了测量单位了。

测量模型是测量对于选举的爱好程度,那么什么因素会影响到对于选举的爱好程度呢?我们根据政治学的常识可以判断出,如果我们现在的群众很信任政府领导人,那么群众对选举是没有兴趣的,如果不信任的话,那么群众有可能会要求选举。所以信任会影响到对于选举的爱好。另外,如果一个人不一定相信领导人,但是同时如果群众对自己的政治能力信任度比较低,也会影响对选举的兴趣。所以政治效能感也会影响到对于选举的偏好。但是信任和效能感这两个因素也有可能是相关的,因此用双向箭头表示,就这样形成了结构模型。

什么是优越性?就是做完方程模型之后,就是要看这件衣服与这个人是否合身,如果合身的话我们可以根据这件衣服来猜这个人的胳膊有多长,腰有多粗。如果这个衣服不合身,那就没法猜准。图中所示,最小卡方值除以自由度等于18.55,这个时候我们要来看一下这是不是我们希望看到的。前面讲到卡方值的时候,自由度为1时,如果卡方值为4,那么相对应的是5%的概率,所以卡方值除以自由度如果是等于4,那就相当于说是一个自由度对4个卡方值是5%的概率。在图中的例子里,我们所希望看到的结果是sig大于0.05。这个地方的零假设是认为这个模型与这个数据是天衣无缝的,所以这个时候希望是接纳零假设。我们在分析模型的拟合程度的时候,仍然是用卡方检验,但是这个时候我们所希望看到的卡方值越小越好,显著度越大越好。如果做不到这些,会选择一些替代的方法看这个模型是否合适。这个时候就会有一些替代指标,比如比较拟合系数,正态化的拟合系数等。

下一期,为您奉献戏说统计学习笔记——

双层回归分析

期待您的支持,扫码即可打赏

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190206G0KQMK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券