行政数据在大数据革命中的作用

编者按:目前“大数据”已经成为社会科学中的一个流行语,但是仍然没有一个精确的定义。本文聚焦于一种特殊类型的大数据——行政数据。行政数据为社会科学研究提供了新的机遇,但是还未得到学界的认可。本文的主要目的是讨论行政数据带给社会科学研究的机遇与挑战。

01

引言

作为一个新兴的概念,“大数据”为我们认识人类行为和社会现象开辟了一条新路。目前有关大数据的定义非常多,其中很多都认为大数据是某一种特殊类型的数据,如社交媒介数据或商业数据。而我们认为,大数据有多种类型,不同类型的大数据需要不同的分析手段,了解不同类型数据的特征对于分析它们是至关重要的。如果将大数据视为一个完全一致的整体,研究者们将无法辨别不同类型数据的属性以及它们潜在的研究价值。

什么是大数据

02

大数据并没有一个统一的概念。一些经济学家认为数据的规模和复杂度是大数据的关键特征。大量关于大数据的论文聚焦于来自于网络活动和社交媒介的数据,很多学者利用这些数据进行了有关个体情绪、政治家印象管理以及集体政治行动等方面的研究。

然而,大数据不应该等同于从网络收集的数据,它还有其他来源,商业行为、从手机收集的卫星或GPS数据、基因数据、行政数据等,同样都是大数据的来源。

Laney(2011)的大数据定义最有名,他从数量、变量和速度方面描述大数据。

Harford(2014)认为,大数据是“被发现”的数据是其基本特征之一。在大数据时代,我们越来越多地使用那些为非研究的目的收集的数据。

03

行政数据

行政数据是来源于行政系统的数据,它们来自许多不同的行政部门,如教育、医疗、税务、住房以及车辆注册等部门,此外,行政数据还包括出生、死亡、结婚记录、选民登记,以及人口普查等数据。我们认为行政数据符合我们上文提到的大数据的特征。

在挪威、瑞典和芬兰,行政数据已经长期为研究者所用。在其他国家,尤其是英国和美国,行政数据的使用为社会科学研究带来了重大变革。

社会科学行政数据与

传统的社会科学数据

04

社会科学中的行政数据与传统的社会科学数据的主要区别在于是“被发现(found data)”的还是“被制造(made data)”的。“被制造”的数据是通过实验或社会调查收集的数据。传统的社会科学数据、行政数据以及其他类型的大数据的区别见下表。

4.1“被制造”的数据

通过实验收集数据的目的是为了验证假设,这些数据的规模比行政数据小,结构清晰,研究者通常比较了解样本及其代表性,因此也能把握进行推论的可能性。由于这些数据是为了验证少数几个假设而收集的,因此被其他研究者使用的可能性比较小。

社会调查数据是在社会科学研究中使用最广泛的数据,这些数据质量高,规模大且复杂,系统性强。与实验数据相比,它不是为了验证某一个假设,而是为了研究一系列社会现象而收集,因此,其再利用潜力很大。

4.2行政数据

行政数据的规模虽然大,但是小于其他类型的大数据。行政数据通常是散乱的,研究者需要对它进行清理和重组以使其格式适应社会科学研究。由于从不同的部门收集信息才能回答社会科学研究的问题,因此许多行政数据是多维的。行政数据通常是从全体而不是样本中收集信息。一般而言,行政数据描述的是某一个社会群体的特征,而这会限制社会科学研究。当使用行政社会科学数据时,研究者需要明确这些数据来自于哪个群体。

在许多情况下,行政数据可以使用现有的数据分析方法进行处理,因此,数十年来社会统计学、经济学和社会学领域的数据分析工作中的经验教训对行政数据也是大有裨益的。

4.3其他类型的大数据

其他类型的大数据规模大且复杂、缺乏系统性、散乱甚至混乱。这些数据通常从未知的人群中收集,样本复杂且未知。这些特征导致一些社会科学家需要采用新的方法来分析它们。

行政数据的核心优势在于它可以作为“被制造”的数据的补充。社会调查数据可以帮助收集行政数据中缺乏的细节信息,而行政数据可以提供独立测量和一些补充信息,如教育考试成绩、医疗条件和纳税记录。行政数据可以有效收集精确度很高的信息,如一份工作的准确起止时间。此外,“被发现”和“被制造”的数据的结合可以很大程度上减轻被访者的负担。

05

行政数据带来的机遇

行政数据可以对社会不平等、人类行为、社会政策等方面的研究有所贡献。尽管研究者们已经进行了一些高质量的大规模社会调查,但是这些数据仍然不能解释所有的社会现象。在一些情况下,大样本的数据仍然不能用来分析一些子样本。

行政社会科学数据一般涵盖所有的调查对象,n=all,这就使得对规模很小的子群体的研究成为可能;行政数据收集了那些不太可能进入社会科学主流研究领域的群体的信息;此外,行政社会科学数据也可以用来研究那些受访者回避的问题(如精神健康问题和药物滥用问题)。

由于缺乏原始数据,研究一些同期群或经历了同一历史事件的群体是困难的,而行政数据可以使其成为可能,这可以推动纵贯研究和时代变迁研究的发展。

除此之外,行政数据可以减轻原始数据收集者的负担,节省成本。

行政数据对于社会政策评估以及其他与社会政策相关的问题是有价值的,对行政数据的分析可以促进社会政策的发展。

行政数据带来的挑战

06

有关行政数据的最受关注的问题是合法性与伦理问题。由于行政数据原本的目的不是为研究所用,所以公众会担心他们的隐私被泄露。需要注意的是,研究人员是在数据所有者设定的严格条件下工作的,这些限制性条件确保个人信息不被泄露。

6.1数据分析

当行政数据被用来进行社会科学研究时,它们形成的矩阵与我们熟悉的社会调查数据没什么不同,每一行是一个样本,每一列是一个变量。因此,在使用行政数据时面临的挑战与使用大规模社会调查数据时面对的挑战没什么不同。

行政数据的规模是研究者需要关注的一个问题。行政数据通常具有样本大而变量少的特征。目前的数据分析软件(如Stata、R、Stata MP)有能力处理大规模数据集。而在实践层面上,非常大规模数据的处理需要强大的内存以及更多的时间。

针对大规模样本分析中的计算问题,最简单的解决方案是抽取其中一个较小的样本进行研究。研究者需要考虑减少数据对结果的影响,并且确保子样本能够代表总体。另一个解决方案是选择拥有更高速的处理器和更大内存的计算机。

从统计学的角度来看,对大规模数据的分析使得研究人员更加意识到简单的显著性检验以及p值的局限性。例如,当对使用线性回归模型估计一个大规模数据时,计算出的β的标准误可能非常小,使用传统的显著性检验就可能导致错误的结论。一个可能的解决方案是在样本数目增加时,降低显著度p,而这不是一种常用的方法,针对不同规模的样本,p值也没有统一的标准。研究人员可以采用一些简单的方法来补充p值的缺陷,例如,研究者可以在给出p值的同时提出另一个衡量变量效果的标准,如边际效用。这可以帮助研究者证明他们的发现在统计上是否是显著的,以及在实际中是重要的。

6.2数据管理

行政数据要被社会科学研究所用,需要进行一些准备工作。这些工作包括调整数据、重新编码以及构建变量。研究者需要调整数据使得这些数据可以成为一个矩阵。但是,很少有研究者致力于行政数据的处理技术。

由于缺乏清晰的记录,研究者在使用行政数据时对数据并没有全部的了解,这对于使用行政数据的先驱者来说是很大的困难。当研究人员共享和记录行政数据的特征、优点和缺点时,可能会克服这一挑战。

6.3数据产生的过程

行政数据受到政策环境的影响,政治系统的变化影响测量的结果。因此,研究者要动态地看待行政系统,以明确信息是如何收集的,测量是如何进行的,以及随着时间的推移,数据如何变化。这要求研究者既要把握数据收集的变化,也要掌握社会政策的变化。

6.4数据质量

社会调查数据中的误差可能也存在于行政数据中,包括测量误差、处理误差、无回答以及调整误差等。

Goerge和Lee(2001)认为,不同的行政数据以及同一行政数据内部的不同部分之间的误差是不同的,因此研究者在研究时应该分别评价每一个数据集。他们认为研究者需要考虑他们所关注的信息是否与该行政数据的最初目的一致,如果不一致,数据的质量可能存在问题。

Goerge and Lee (2001)提供了一些评估行政数据质量的方法。第一,把行政数据与其他数据进行对比;第二,研究者应该询问是否存在审查数据的部门;第三,数据是否是由调查者录入的;第四,数据收集系统中是否存在质量保证检查。

评估数据质量时另一个需要考虑的要素是,该数据是否与行政部门的绩效或目的相关?如果相关的话,可能由于腐败导致数据质量存在问题。

6.5数据的获得

另一个挑战是,行政数据不属于研究者,获得它是很棘手的且需要花费很长时间。这一困难限制了研究者的研究。可以缓解该问题的一个方法是对研究过程做清晰详尽的记录。我们提倡共享“语法文件”。通过共享记录和语法文件(syntax files),其他研究者可以仔细分析该研究并在此基础上进行下一步的工作。

6.6数据连接

如果两个数据集中的个体是匹配的,这两个数据集就可能实现一致的唯一的连接。而对于不能够实现这种连接的数据,研究者需要依赖于其他标识,如姓名、年龄、性别等。这种连接存在一定的风险,数据可能是不准确的,会导致分析中的误差。研究人员需要重视这种数据连接的风险以及其对结果产生的影响。

结 论

总之,大数据带来了社会科学研究的变革,行政数据在其中可以大有所为,但是,为了使行政数据发挥更大的作用,在研究实践上应该向前跨越,并且确保使用行政数据的工作是有效的,共享的和可重复的。

文献来源:

Roxanne Connelly,Roxanne Connelly,Vernon Gayle, Chris Dibben. The role of administrative data in the big data revolution in social science research[J].Social Science research,2016,59:1-12

文献整理|孙惠夏

文章授权转载自社论前沿

编辑|刘刘刘佳楠

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180511B26P8E00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券