断点回归设计的前沿研究现状,RDD

和其他因果分析方法相比, 学术界普遍认为运用断点回归设计更接近准自然实验, 估计的结果更加准确, 因此近年来越来越多的实证文献依赖断点回归设计进行政策效应评估。文章主要按照模型设定、估计方法、相关实证研究这三个方面对国内外相关理论和文献进行述评, 呈现断点回归设计完整的理论框架和应用领域, 旨在为国内相关研究者提供借鉴。

因果分析与政策效应评估是经济分析最为关注的核心问题[1], 运用计量模型进行因果分析的难点在于如何避免模型的内生性问题。针对这一问题, 微观计量领域的学者们通过不断探索, 借助于心理学和医学研究中准自然实验 (quasiexperiment) 的思想评估不同政策的处理效应, 试图获得一致 (consistent) 或者无偏 (unbiased) 估计量。常见的通过准自然实验思想估计处理相应的模型有:工具变量 (Instrumental variables) 、匹配和加权估计法 (matching and reweighting) 、倍差法 (difference-in-difference) 和断点回归设计 (regression discontinuity design) [2]。和其他方法相比, 学术界普遍认为运用断点回归设计更接近准自然实验, 估计的结果更加准确。因此, 近年来越来越多的实证文献依赖断点回归设计进行政策效应评估。

Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应[3]。此后30年, 该方法并未引起学术界的重视, 直到1990年以后, 断点回归设计开始被应用于各种领域, 并且近年来成为因果分析和政策评估领域最重要的研究方法。

本文将按照模型设定、估计方法、相关实证研究这三个方面对国内外相关理论和文献进行述评, 呈现断点回归设计完整的理论框架和应用领域, 旨在为国内相关研究者提供借鉴。

一、模型设定

断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的, 因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。一般将该连续变量X称为分组变量 (assignment variable) 。按照在断点处个体得到处理效应概率的变化特征可以分为两种类型:一种类型是精确断点回归设计 (sharp regression discontinuity design, 以下简称SRD) , 其特征是在断点 (也就是上面所说的临界点) X=c处, 个体接受政策干预的概率从0跳跃到1;另一种是模糊断点回归设计 (fuzzy regression discontinuity, 以下简称FRD) , 其特征是在断点X=c处, 个体接受政策干预的概率从a变为b, 其中a≠b。

二、估计方法

对于断点设计回归模型可以采用参数化方法和非参数化方法估计出上述中的τSRD和τFRD。然而在进行估计之前, 应该通过图形的形式展示出结果变量 (Y) 和分组变量 (X) 之间的关系, 呈现出结果变量在断点处的跳跃, 这也是断点回归设计和其他回归模型相比所具有的特定优势———透明性[6]。此外, 在对平均处理效应进行估计之前或估计时, 还需要对断点回归设计的一些关键假设进行检验: (1) D (X=c) ≠0, 也就是检验处理变量在断点c处是否存在跳跃; (2) D (X≠c) =0以及Y (X≠c) =0, 检验处理变量D和结果变量Y在断点以外的其他点不存在跳跃; (3) W (X=c) =0, W代表影响结果变量的控制变量, 该检验表示检验控制变量在断点处不存在跳跃; (4) f (X=c) =0, f代表概率密度函数, 该检验表示检验分组变量在断点处的概率密度函数是连续的, 也就是在断点附近, 个体不能操控X的取值, 个体落入断点的左侧或右侧是随机发生的; (5) τSRD≠0或者τFRD≠0, 检验平均处理效应不等于0[7]。下面将分别介绍精确断点回归设计和模糊断点回归设计的估计方法。

(一) 精确断点回归设计估计方法

精确断点回归设计可以使用非参数化方法和参数化方法对平均处理效应系数进行估计, 非参数化方法主要是指局部线性回归方法 (local linear regression) , 而参数化方法主要是指局部多项式回归 (local polynomial regression) 。在局部线性回归中, 选取合适的带宽是至关重要的, 带宽的选择是在准确和偏差之间进行权衡。一方面, 如果带宽选择很大则可供估计的观察值越多, 这将使得估计结果更准确, 但是平均处理效应估计值的偏差将越大;另一方面, 如果带宽选择很小, 准确性降低但偏差减小[6]。

局部多项式回归的多项式, 可以是一次、两次、三次甚至更高阶, 可以采取不同的多项式形式对式 进行估计, 比较不同回归方程形式下τ的估计结果, 进而检验估计结果的稳健性, 常用的f (Xi-c) 有如下一些形式[8]:

1) 线性型f (Xi-c) =Xi-c

2) 线性交互型f (Xi-c) =Xi-c+Di· (Xi-c)

3) 二次型f (Xi-c) =Xi-c+ (Xi-c)

4) 二次交互型f (Xi-c) =Xi-c+ (Xi-c) +Di· (Xi-c) +Di· (Xi-c)

其他阶数的多项式形式以此类推。

在局部多项式回归中一个关键的问题是多项式阶数的选择, 相关讨论详见Lee和Lemieuxa[6]、Gelman和Imbens[9]等人的研究成果。

(二) 模糊断点回归设计估计方法

在模糊断点回归设计中, 具体的估计方法可以采用局部线性回归法和局部多项式回归法。

三、相关实证研究

(一) 国外相关研究

自从20世纪90年代以来, 国际学术界出现了大量运用断点回归设计进行实证研究的文献, Lee、Lemieuxa等对相关实证研究进行了系统回顾[6]。近年来, 断点回归设计依然是政策评估研究的重要实证方法, 相关研究刊发在不同领域学术期刊上, 并且在顶级学术期刊上也不断出现类似的文章。由于实证研究文献众多, 不可能一一列举, 本节主要回顾2010年以来刊登在国内外顶级经济学期刊上相关文章。

Dell开创性地将地理边界断点问题引入了断点回归设计研究问题领域, 也就是在其实证研究中分组变量为地理距离, 断点为地理边界, 他研究了16至19世纪西班牙殖民政府在秘鲁某些地区实行的米塔 (Mita) 劳役制度对经济发展的影响, 实证结果发现米塔劳役制度使得当今这些地区家庭消费水平降低25%, 并使得儿童身高矮小率增加了6%[10]。Chen等学者同样利用地理断点回归设计的方法研究了中国北方地区冬季集中供暖制度对当地居民平均预期寿命的影响, 以秦岭和淮河为界中国的冬季集中供暖机制只覆盖北部地区, 这为建立地理断点回归设计研究提供了很好的现实基础, 这份研究发现空气中总悬浮颗粒物 (TSP) 每上升100μg/m, 居民平均预期寿命大约减少3年, 而这种集中供暖政策使得北方的空气中TSP比南方平均水平高184μg/m, 这意味着该政策使得北方5亿居民相对南方平均预期寿命大约降低5.5年, 总预期寿命减少超过25亿年[11]。

经济学学术期刊《American Economic Review》2015—2016年两年期间刊发了6篇断点回归设计实证研究文章, 研究的内容涉及不同领域, 这说明断点回归设计研究仍为重要的实证研究工具并被主流学术界所青睐, 在此将对这些文献作一回顾。

Dell研究了墨西哥的选举和毒品犯罪问题, 断点回归设计的结果发现在这些行动党 (一个保守的政党) 候选人以微弱优势赢得市长选举的城市, 与毒品相关的犯罪数量大量增加, 这样的实证结果可能是由于:行动党对贩毒集团大力镇压后, 贩毒集团为抢回势力范围而实施了更多犯罪[12]。Hansen研究了严厉的惩罚措施对于醉酒驾驶行为的影响, 惩罚措施由血液中酒精浓度和以往醉驾记录决定。断点回归设计结果显示个体血液中酒精浓度超过醉驾标准临界值使得未来四年再犯的可能性降低2%;如果超过严重醉驾标准临界值则使再犯可能性进一步降低1%[13]。

Schmieder等使用精确断点回归设计研究了德国增加失业金领取时间对失业者再就业工资的影响, 使用工具变量的方法估计局部平均处理效应, 结果发现中年工人失业时间增加一个月会使得工资降低8%[14]。Deshpande研究了美国取消低收入年轻残疾人享受辅助性保障收入 (Supplemental Security Income, 简称SSI) 资格对其成年后收入的影响, 断点设计策略基于美国1996年一项福利制度改革:增加对18岁残疾人的身体资格审查严格程度和次数, 这项制度只适用于18岁生日在1996年8月22号之后的人, 因此在这一天形成了一个断点, 生日在这天之后的人被取消SSI资格的可能性会增大, 实证结果发现被取消SSI的残疾人只能赚回三分之一失去的SSI收入[15]。Feldman等人则研究了家庭对于他们所适用的边际税率是否真正理解, 在美国当家庭中子女年龄超过17岁, 即自动失去儿童税收抵免 (Child Tax Credit) 资格, 断点设计策略基于这一现实。实证研究结果发现虽然家庭在失去儿童抵免税资格后所面临的税务增加且可以预测, 但是家庭在发现失去这一资格后会少报收入, 这个发现说明家庭误认为至少他们部分税收负担的变化是边际税率的增加[16]。Card研究了美国某学区实施的一项小学教育政策对学生成绩的影响。2004年该学区要求所有小学在四年级和五年级将所有高智商学生单独编在一个班级, 如果该学校在这些年级至少有一个高智商学生, 该政策要求这个班级的学生规模为正常规模 (20~24人) , 而正常每所学校每个年级高智商学生为5~6个, 因此这个班级还有多余的席位, 该班级剩余席位将给那些在过去一年标准化测试中获得最高分的非高智商学生。该文使用基于排序的断点线性回归以及通过对不同年级学生的比较研究了这一政策的实施效果, 研究结果显示这一政策使得非高智商学生在学习成绩上进步显著, 特别是非洲裔和西班牙裔族群学生[17]。

上述6篇实证文章涉及的领域有犯罪经济学、劳动经济学、福利经济学和教育经济学, 可以预见在未来断点回归设计还将被应用于更多领域进行实证研究。

(二) 国内相关研究

目前, 国内学术界也有大量文献开始运用断点回归设计方法进行实证研究, 一些研究出现在权威经济学期刊及其他领域期刊上。本文将对近年来国内顶级经济学期刊《经济研究》上的4篇相关文献进行阐述。

范子英、田彬彬基于中国17万家制造业企业层面的数据采用断点回归设计的方法, 在实证后发现地税局对企业所得税的执法不力导致了大范围的企业避税[18]。黄新飞等人选取2011年5月至2014年5月长三角15个城市224个市场37种农产品的161个周度价格及成本数据, 克服数据加总偏差和样本选择误差, 测算了市场分割程度, 在修正的实证模型基础上运用断点回归方法估计了长三角地区两省一市的边界效应[19]。邹红、喻开志基于国家统计局城镇住户调查2000—2009年的家户数据, 利用退休制度对城镇男性户主退休决策的外生冲击, 在断点回归设计框架下采用工具变量参数估计法和非参数估计法, 检验了我国是否存在退休消费骤降现象, 并探讨了原因[20]。刘生龙等人利用中国城镇住户调查数据 (2007—2009年) , 基于断点回归设计方法对1986年开始实施的义务教育法对个体受教育年限及教育回报率进行实证研究[21]。

出现在国内权威期刊上的实证文献也涉及众多领域, 由于篇幅有限, 不再一一回顾。同样可以预测未来国内将会有更多利用断点回归设计进行政策评估的文献, 为我国的经济和社会发展提供更好的政策建议。

四、结语

断点回归设计和其他因果效应分析模型相比更接近准自然实验, 近年来受到实证经济学者的青睐, 大量实证研究成果见诸各类学术期刊, 研究的话题涉及众多领域。但是断点回归设计的使用需要满足一定的前提条件, 因此在模型建立之前需要对相关条件进行严格检验。本文按照断点回归设计的模型设定、估计方法、相关实证研究这三个方面对国内外相关理论和文献进行述评, 主要目的是展示断点回归设计完整的理论框架, 并简要介绍相关实证研究, 为国内相关研究者进行政策效应评估提供参考。

来源 :无锡商业职业技术学院学报

提议

为了更好地促进计量经济圈成员学习因果推断计量方法,我们决定组建“causal effect”文献学习小组。里面主要是通过学习使用因果推断计量方法的经典文献,那让群里每个成员逐渐理解并掌握因果推断计量方法:treatment effects, RD, DID, DDID, Synthetic control等。

本文来自企鹅号 - 计量经济学圈媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

前沿 | 减少30%流量,增加清晰度:MIT提出人工智能视频缓存新算法

3629
来自专栏新智元

【一图读懂】你不得不知道的10个影响人类社会的算法

【新智元导读】本文的信息图表详细介绍了算法的定义、起源以及 10个重要而且基本的算法,并提出有关算法,尤其是人工智能和深度学习对人类社会、经济的影响的思考。 在...

3926
来自专栏新智元

AI瑞文智力测验超美国人平均IQ,计算模型用类比推理解决视觉问题

【新智元导读】作为广泛应用于无国界的智力/推理能力测试,瑞文标准推理测验可以测验一个人的观察力及推理能力。在此前一项广受争议的对超过 80 个国家和地区进行的 ...

2825
来自专栏AI科技评论

论文 | 谷歌OpenAI联合发布AI安全五大准则,取代机器人三定律预防科技暴走(上)

虽然说谷歌很明显对AI持着积极态度,但或许一两种有效的保险措施仍是需要的,就像人也需要法律来约束一样。身处AI科研最前沿的谷歌正在积极研究有效预防AI对人类可能...

38612
来自专栏机器人网

如何让机器人认识“长颈鹿”?

带个三岁小娃去动物园,她凭直觉就知道这个在吃树叶的长脖子生物就是她图画书中叫做“长颈鹿”的动物。这看起来很平常,但其实非常了不起。图画书里是一个单线条组成的静态...

2658
来自专栏腾讯技术工程官方号的专栏

—从三体到量子计算导读

本文作者 : 腾讯网络平台部服务器平台架构师,专家攻城狮。14年加入腾讯,之前在华为工作13年,多年从事平台软件和硬件的研发。加入腾讯后,在服务器平台中心负责...

1916
来自专栏钱塘大数据

数据可视化,除了炫目你真的看懂内涵了嘛?

导读:数据可视化,本该是更快更好地表达数据中隐藏的、非直观的信息,是数据分析的升级工具。然而随着大数据火热,人们审美的提升,本该内涵丰富的数据可视化变成了争奇斗...

2955
来自专栏机器人网

详解多旋翼飞行器/无人机的传感器技术

两年来,大疆精灵系列更新了两代,飞控技术更新了两代,智能导航技术从无到有,诸多新的软件和硬件产品陆续发布。同时我们也多了很多友商,现在多旋翼飞行器市场火爆,诸多...

3356
来自专栏ATYUN订阅号

MIT开发新型加密方法,使基于云的机器学习更具安全性

麻省理工学院研究人员设计的一种新型加密方法可以保护在线神经网络中使用的数据,而不会减慢其运行时间。这种方法有望在基于云的神经网络进行医学图像分析和其他使用敏感数...

543
来自专栏媒矿工厂

MMSys2018:全息视频【附PPT全文】

2018年6月12号至6月15号,第9届ACM多媒体系统会议(MMSys,ACM Multimedia Systems Conference)在荷兰阿姆斯特丹召...

1113

扫码关注云+社区