面板数据不是面包,也不是面条

近些年来,面板数据(panel data)的蓬勃发展为定量社会科学研究(特别是因果推断)提供了重要基础。对于不熟悉定量研究的学者来说,面板数据是一个抽象而且难以从字面理解的概念。这主要是对英文单词panel翻译不准确导致的,使得面板数据这个词语没有体现它真正的含义。

在英文中,panel有两层含义:

1.一组特定的人群,比如它可以代指委员会、专家组等。

2.长方形的板子,比如木板(wooden panel)、配电板 (electric panel)等。

很显然,panel data中panel指的是第一个意思。所以,面板数据的真实含义是对一组特定的人群进行长期追踪调查得到的数据,跟面板没有关系。与面板数据相对应的是截面数据(cross-sectional data)。顾名思义,它是对一个人群或样本进行一次性的调查,如果下一次再进行调查则重新选择样本。因此,面板数据的主要特征就是样本在时间上具有连续性。

相比截面数据,面板数据样本在时间上的连续性对社会科学建立因果关系有什么帮助呢?众所周知,建立两个事件之间因果关系的条件至少有三个:

1.两个事件有一定的相关性,比如经常伴随发生。

2. 有因果时间顺序,即因在前,果在后。

3. 两个事件的关系是由于背后蕴藏的真实机制,而不是由于遗漏变量或干扰因素等原因造成。

关于第一个条件,面板和截面数据都可以轻易地发现很多具有相关性的事件。所以,面板数据优势主要体现在后两个条件。

关于第二个条件,面板数据样本的时间维度不仅可以让我们在考察不同变量关系的时候考虑时间顺序的因素,排除因果倒置的问题,也可以让我们发现事物变化的动态趋势。然而在截面数据中,想要建立时间顺序就不那么容易,主要依赖回顾数据(retrospective data,比如询问儿童时期的健康状况)和逻辑关系(比如性别在逻辑上比就业要早)。

关于第三个条件,面板数据可以更好地让我们排除其他干扰因素,从而确定因果关系。假设我们想研究参加补习班是否可以提高学生的成绩。如果运用截面数据的话,我们可以比较两个不同的学生,一个参加过补习另一个没有,然后比较参加补习的学生是否比未参加补习的学生成绩更好。然而,由于参加补习的学生通常来自更加富有的家庭,父母受教育程度高,投入学习的时间更多,也学习更好。这些因素使得我们难以判断参加补习是否可以提高学生成绩。尽管我们可以尽可能地选择在这些方面都相似的学生(控制这些变量),但是总有一些难以测量的不明显的特征,比如父母教养方式。这使得我们无法考虑到所有的干扰因素。

相比来说,使用面板数据的话,我们不再比较两个不同的学生,而只是比较同一个学生在不同时间的变化。显而易见,使用面板数据的方法更加可靠,因为我们只考察个人内部变异(即同一个人在不同时间点的变化),忽略个人之间的变异。由于一个人的很多因素不随时间变化或者在很长时间内不变(比如性别、种族、家庭背景),我们就可以排除这些因素的干扰。

在上一个例子当中,面板数据分析所用的逻辑叫作固定效应模型,它只研究个人内部的变异,忽略个人之间的变异,这样可以有效地排除其他时间固定因素的干扰,使得结果更加精确。另一种分析面板数据的方法是随机效应模型。和固定效应相比,随机效应对个人内部和之间的变异进行加权平均。同时考虑两种变异可以使得随机效应更充分地利用数据的信息,也就是在统计上更加有效率。然而,因为考虑了个人之间的变异,随机效应必须假设残差和自变量不相关(即模型不受其他遗漏变量或干扰因素的影响)。事实上,这种假设通常是不成立的,这就使得随机效应模型潜在误差风险更大。所以,尽管随机效应模型更有效率,但越来越多的学者(特别是经济学学者)倾向使用固定效应以保障模型结果的精确性

尽管越来越多的学者使用更加精确的固定效应模型来分析面板数据,但是对于它的缺点学者并没有给予足够的重视,这增加了学者过度解读固定效应模型结果的可能性。社会科学中最近发展出来的混合效应模型就是用来解决这一问题的。简单来说,混合效应模型的核心就是将每个变量的变异分成个体内部和个体之间变异,并分别展示它们和因变量之间的关系。这样一来,混合效应模型不仅可以研究自变量和因变量个体内部差异从而避免遗漏变量的干扰,也可以通过个体之间的差异考察时间固定因素对因变量的影响。

无论是固定还是随机效应模型,它们都是静态模型,即假设个人的行为和他过去的行为没有关系。然而,社会科学中历史路径依赖和正反馈效应的普遍存在意味着事物的发展会很大程度受到历史惯性的影响。

动态面板模型就考虑到了事物发展的路径依赖效应,把因变量的时间滞后项作为自变量来解释因变量现在的水平。然而,由于因变量的时间滞后项和残差相关,这会导致动态面板偏差(dynamicpanel bias)。换句话说,因变量时间滞后项对因变量的影响可能不是由于路径依赖,而只是由于个体在时间上的差异。

从固定效应到随机效应,再到动态面板,对于模型的选择从根本上是一个误差和效率悖论(bias and efficiency tradeoff)。

因此,究竟如何创建面板数据?如何选择合适的面板模型?每种模型如何进行解读?学术中国特别推出系列直播“面板数据分析在社会科学中的运用”,通过四节理论讲解+两节实战操作,教你学会使用面板数据。

讲师简介

王森浒,英国剑桥大学贾奇商学院(Judge Business School)研究员,剑桥大学社会学博士。

主要研究方向:移民、公众健康、劳动力市场、量化研究方法、大数据等;至今发表SSCI文章6篇。在剑桥大学主要负责面板数据分析(课程/考试设计师和讲师)统计功效分析(课程设计师和讲师)统计学概论(研讨会)应用统计学基础(研讨会)基础定量分析(研讨会)多元回归分析(研讨会)Stata和数据(研讨会)。

课程大纲

第一讲:面板(追踪)数据简介

11月1日19:00-20:30

简介:比较纵向数据和截面数据;介绍不同类型的纵向数据(包括面板数据),比较面板数据和其他纵向的数据的优缺点;着重介绍面板数据对于因果推断的重要性。

第二讲:固定效应模型

11月2日19:00-20:30

简介:比较固定效应模型和OLS回归,介绍的固定效应模型的逻辑,以及其他类似的内分析方法。讲解如何解读固定效应模型的参数。

第三讲:随机效应模型

11月5日19:00-20:30

简介:比较随机效应模型,固定效应模型和OLS回归,介绍的随机效应模型的逻辑,豪斯曼检验,讲解如何解读随机效应模型的参数。比较随机效应模型和多层线性模型(multilevel models)

第四讲:混合模型和动态面板模型

11月6日19:00-20:30

简介:介绍混合模型的逻辑,比较混合模型和固定随机效应模型。介绍动态面板分析,并和静态面板分析进行比较。介绍如何对动态面板分析做稳健性检验。

实战操作一

11月7日19:00-20:30

简介:合并数据,创建面板数据,描述性分析,解读描述性分析结果。

实战操作二

11月8日19:00-20:30

简介:操作固定效应模型,随机效应模型,混合模型,动态面板模型。

适用人群

有一定社会统计学基础和回归分析基础才可学习,请量力报名!

没有基础想补课?扫码查看!

欢迎订阅学习中国香港中文大学李连江教授的专栏《让每一个文科生成为统计高手》,扫码学习基础课程。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181017B2AUXD00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券