行政部门数据在经济学中的应用

编者按

从来源上讲,我们可以将近些年被越来越多学者所“青睐”的“大数据”分为行政部门数据私人部门数据两大类。与采用抽样调查数据一样,不同类型数据的应用存在共性,但也存在许多明显的区别。

基于文献阅读和研究,后面我们将逐渐分两个系列介绍上述两类大规模数据当前的学术应用情况,它们依次是:

“行政部门数据学术应用系列”

“私人部门数据学术应用系列”

中国行政部门的数据,包括个人、家庭和企业层面的,是行政部门在履行行政管理和服务职责过程中收集的数据。这些信息原本就被各级各部门政府部门所收集和保存,近些年来,通过数据信息的电子化和规范化,逐渐形成了一些海量数据库,如中国的人口普查数据、经济普查数据、工商大数据库和海关数据库等。因为一些主客观原因,目前只有少数学者能够获得并使用上述数据,同时大多数已有研究还是将这些数据按照传统计量经济学的思路加以应用,因此我们需要更多行政(大)数据如何应用于学术研究的经验和启发。

他山之石可以攻玉,本次推文节选了Liran Einav和Jonathan Levin在2014年发表在《科学》上的Economics in the age of Big Data的一部分,原文作者在其中回顾了采用公共部门行政数据的情况。

Economics in the age of big data

大数据时代的经济学

一、概要

1、背景

数十年来,经济学已经演变成一项越来越讲求实证分析的科学,而过去十年的数据革命可能会对经济研究产生更深远的影响。经济学家们则越来越多地利用新近可用的大规模行政部门数据以及与私营企业合作而获得的私营部门数据进行研究,带来了新的机遇和挑战。

2、进展

这些新数据在以下几个方面影响着经济研究:一方面,是行政部门数据的变革。许多研究领域已由依靠小样本政府调查转向全部或近乎全部人口覆盖的行政部门数据转变。可能更加值得注意的是,私营部门经济活动的数据规模不断扩大。*我们将对该部分开辟专题,以提供更多的有益信息3、展望大数据时代的到来已经能够让我们更好地测度经济效应和经济结果,并且能够在各种主题上实施新颖的研究设计。随着时间的推移,由于能够考察总体变异(population variation)以及分析更大范围的经济活动和相互影响,这些数据很可能会影响经济学家提出问题的类型。我们还预期经济学家会越来越采用与大数据统计方法,这些大数据统计方法在相关领域已经被发展起来,这会与传统计量经济技术形成互补。当然,这些数据带来机会的同时也向我们提出了诸多挑战。可能首要的挑战是开发出能够让研究人员以“尊重隐私和保密关切”的方式去访问和探索数据的方法。这是使用政府行政数据和通过私营部门企业使用数据都存在的一个关键问题;另外一些挑战还包括开发适当的数据管理和编程功能,以及设计有创造的和可扩展的方法来概括、描述并分析大规模和相对非结构化的数据集。

尽管存在这些挑战,但是接下来几十年很可能是经济学研究非常令人兴奋的时代。

图释:上图反映了非公开数据在经济研究中的使用情况。

二、正文

我们首先讨论从相对政府小样本调查数据转变为具有普遍或接近普遍人口覆盖调查的行政数据。

这类数据已经在欧洲使用了一段时间,但在美国才刚刚开始探索。我们解释了这些数据的变化能力,以揭示不同子总体之间的差异,构建一致的长期统计指标,产生新的准实验(qusai-experimental)研究设计,并追踪自然和控制实验的不同结果。

公共部门数据:行政记录

联邦政府在执行税收制度、社会计划和监管的过程中,会收集有关个人和公司的详细数据。当然,州和地方政府也是如此,尽管在如教育、社会保险和地方政府支出等方面缺乏一致性。由于能够获得这些数据的电子版本,他们越来越成为可供劳动经济学家、公共财政,健康和教育领域学者选择的数据来源。与传统调查数据相比,行政数据有如下几个优势:较高的数据质量和长期的面板数据结构。而传统调查数据,人员调查(如the Survey of Consumer Finances, the Current Population Survey, the Survey of Income and Program Participation, and the Panel Study on Income Dynamics)会遇到严重的数据缺失问题,自然准实验研究设计受到样本量有限的限制。而包括社会保障局、国家税务局、医疗保险和医疗中心在内的部门维护的行政数据往往具有较高的数据质量和长期的面板结构。样本选择与磨损(attrition),这些调查类面板数据中常见的问题,已经不再是主要担心的问题(Card D., et al., 2010)。这些“全覆盖(universal)”数据在分析总体变异(population variation)时特别强大。例如,Piketty and Saez(2014)采用税收记录计算了收入分布中最高部分的收入和财富份额。对于传统调查而言,因为样本量不够、高收入和资产水平的低报,以及这些调查往往追溯很少的几年(最多十年)等原因,这些计算是有问题的。相反,税收数据能够构建相对同质的跨越几十年甚至上百年的时间序列数据。行政部门数据在诸如体现经济流动性的地区差异(Chetty, N., et al., 2014)(见图1)和医疗支出地区差异、发现公立学校教师之间测试分数增加值指标差异(Rivkin, S. G., et al., 2005)等方面也同样有用、识别其他方面相似公司之间工资和生产率方面的巨大差异(Syverson, C., 2011; Abowd, J. M., 1999)等方面也同样有用。在上述每个案例中,研究者都使用大规模的行政部门数据来测度和在个体或者公司的小子群体之间比较相关变量(如收入、支出、生产率或者工资)。这些结果在帮助和引导了政策讨论,并且在经济学的多个子领域重新定义了研究议程。

最近的研究也凸显了将行政数据用于因果推断和政策评估的价值。对于这些目的,行政部门数据可能同时因为其覆盖率和详细程度满足新颖研究设计,以及能够将记录进行连接从而可以对来自已有实验和准实验的样本进行跟踪而显得很有价值。后边一点非常重要。将一个数据集与一个100万美国家庭的随机调查进行匹配能将会将原始样本减少到其原来规模的1%。与行政部门数据进行合并可以保持样本实际上不变。Akerman, A., et al. (2013) 等最近关于宽带互联网接入效应的研究,是行政数据通过合理组合能够进行成功评估研究的例证。他们的研究设计靠的是挪威的宽带接入在各地是逐步扩张的。作者将这种交错展开与行政部门税收记录链接,来估计采用宽带对公司工资和生产率的影响。通过链接个体和公司层面的行政数据,作者可以观察到多个产出指标,可以评估宽带接入对特定子个体的影响,如宽带计入被证明对不同教育水平的工人有不同的影响。当形成研究的研究设计基础的实验和准实验只影响相对小的人口时,全覆盖的优势同样可以得到发挥。一个近期的例子是Chetty, et al.(2014; Chetty, R., 2014)研究教师素质的长期效应。作者使用了来自一个特定城市的学生层面测试成绩数据,并识别了一个通过将学生分给不同教师形成教师素质差异的准实验。值得关注的一步是作者将学生的记录连接到税收数据,从而能够跟踪教师素质对20年后学生工资的影响。一些近期的研究还使用行政部门数据对真实随机试验的结果进行跟踪。Chetty et al.(2011)对上世纪80年代实施的田纳西师生比与成绩绩效(STAR)的随时试验中被随机分配的学生未来的工资。Taubman et al.(2014)对Oregon Medicaid expansion的评估也使用了行政部门数据来跟踪俄勒冈对新合法个体扩展其医疗计划之后一段时期的结果。后一份研究将州的行政数据、入院记录,私人部门的信用记录,以及更具针对性的调查来评估公共医疗补助对健康和财务指标的影响。人们才刚刚认识到行政数据用于学术研究的潜力,但同时也仍存在着重大挑战(King, G., 2011;Kum, H. C., et al., 2011)。尤其是在美国,对保密和隐私问题的关注,以及行政官僚障碍,使得获取行政数据集和在这些数据集中的记录之间建立连接相对比较麻烦。挪威,瑞典和丹麦等欧洲国家在合并不同的行政部门记录和促进研究方面做得更好。Card et al.(2010)已经清楚地表达了开放行政部门数据的一些原则,包括对数据访问引入竞争、透明性,以及防止个人记录的泄露。我们认为其是非常有用的指引。

然而,即使是当前只能零星获取行政记录数据,也可以清楚地看到,这些数据将在未来经济学研究中起决定性作用。

参考文献

R. Chetty,“Time trends in the use of administrative data for empirical research,”presentation slides (2012).

D. Card, R. Chetty, M. Feldstein, E. Saez,“Expanding access to administrative data for research in the United States,”NSF SBE 2020 white paper ID 112 (2010).

T. Piketty, E. Saez,Inequality in the long run. Science 344, 838–843 (2014).

R. Chetty, N. Hendren, P. Kline, E. Saez,Where is the land of opportunity? The geography of intergenerational mobility in the United States. Q. J. Econ.

Dartmouth Atlas of Health Care.

S. G. Rivkin, E. A. Hanushek, J. F. Kain,Teachers, schools and academic achievement. Econometrica 73, 417–458 (2005).

C. Syverson,What determines productivity?J. Econ. Lit. 49,326–365 (2011).

J. M. Abowd, F. Kramarz, D. N. Margolis,High wage workers and high wage firms. Econometrica 67, 251–333 (1999).

A. Akerman, I. Gaarder, M. Mogstad,“The skill complementarity of broadband Internet,”Institute for the Study of Labor (IZA)discussion paper no. 7762 (2013).

R. Chetty, J. Friedman, J. Rockoff,Measuring the impacts of teachers I: Evaluating bias in teacher value-added estimates.Am. Econ. Rev. 104, 2593–2632 (2014).

R. Chetty, J. Friedman, J. Rockoff, Measuring the impacts of teachers II: Teacher value-added and student outcomesin adulthood. Am. Econ. Rev. 104, 2633–2679 (2014).

R. Chetty et al.,How does your kindergarten classroom affectyour earnings? Evidence from Project Star. Q. J. Econ. 126,1593–1660 (2011).

S. L. Taubman, H. L. Allen, B. J. Wright, K. Baicker,A. N. Finkelstein,Medicaid increases emergency-departmentuse: Evidence from Oregon’s health insurance experiment.Science 343, 263–268 (2014).

G. King,Ensuring the data-rich future of the social sciences.Science 331, 719–721 (2011).

H. C. Kum, S. Ahalt, T. M. Carsey,Dealing with data:Governments records. Science 332, 1263 (2011).

----------------------------------------------------

数据Seminar

这里是经济学与大数据的交叉路口

翻译 | 何年华

校对 | 刘超逸、王越、谈佳辉

审核 | 杨奇明

编辑 | 黄胜蓝

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180427G1ZQHP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券