前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >因果推断文献解析|A Survey on Causal Inference(4)

因果推断文献解析|A Survey on Causal Inference(4)

作者头像
用户8612862
发布2021-05-13 17:26:27
8390
发布2021-05-13 17:26:27
举报

一介绍

上一篇ZZ介绍了本篇综述的第一个因果推断方法:“权重更新方法“;通过之前的阅读我们明确因果推断的核心任务是搞定反事实结果

F_{i}^{CF}

,但是存在混杂因子这种变量,使估计结果产生了偏差,作者首先介绍基于三个假设下的因果推断方法来处理混杂带来的选择偏差,作者将这些方法分层了7个小类,分别是:

(1) 权重更新方法;(2) 分层方法;(3) 匹配方法;(4) 基于树的方法;(5) 基于表示学习的方法;(6) 多任务学习方法;(7) 元学习方法。

对于权重更新方法,主要是基于倾向得分,构造使不同策略组的样本分配均衡的权重,其充满科学的思维深深的吸引着我们。但是其中也面临着重重困难,倾向得分是否估计的准确?是否所有相关变量都是混杂因子?都影响着该方法的准确性,接下来我们换个角度,一起来解析接下来的基于潜在结果框架下的因果推断方法,首先附上上一篇链接:

因果推断文献解析|A Survey on Causal Inference(3)

论文原文点击文末【阅读原文】即可查看。为了区分是原文内容还是ZZ自己的理解,下面ZZ自己的旁白用粗体标出。

二正文解析

3.2 分层方法

分层方法(Stratification)亦称为子群分类或者分块方法,是一种常见的混杂调整方法。分层的思想是通过将整个观测数据分成同质的子组(子块)来调整由于试验组和对照组之间的差异而产生的偏差。理想情况下,在每个子组中,试验组和对照组数据的协变量的某些测量下是相似的,因此,同一子组中的样本可以被视为随机对照试验数据的抽样。

由于每个子组的同质性,我们可以通过随机对照实验的方法计算每个子块(即CATE)内的策略效果。在得到各子块的CATE后,可以通过合并这些子块的CATE来获得对整个观测数据的策略效果,如公式(8)类似,我们以ATE的计算为例:

具体来说,如果我们将整个数据集分成 J 个子块,则估计ATE为:

其中,

\bar{Y}_{t}(j) 和 \bar{Y}_{c}(j)

分别是策略组和对照组的第

j

个子块的效果均值,

q(j)=\frac{N(j)}{N}

是每一个子块样本占整体样本数的比率,整个公式即加权平均。

分层方法相对于直接使用差分方法(见下公式),显著降低了估计偏差:

作者给出的这个直接使用差分的公式比较奇怪,ZZ感觉他应该想表达的是下面这个公式:

ATE_{diff}=\hat{\tau}^{diff}=\frac{1}{N_{t}}\sum_{i}^{W_{i}=1}{Y_{i}^{F}}-\frac{1}{N_{c}}\sum_{i}^{W_{i}=0}{Y_{i}^{F}}

即试验组与对照组的直接差分;下面作者详细说明了一下,

\hat{\tau}^{start}

相比于

\hat{\tau}^{diff}

减少了多少估计偏差:

首先作者假设策略效果与其他相关变量和策略变量都是线性关系,即:

那么我们可以得出差分估计

\hat{\tau}^{diff}

的估计偏差是:

上面这个偏差解释一下,既然是估计偏差,也就是估计的有失偏颇之处,那这样不用考虑 w 产生的差值,所以只考虑由相关变量 x 的差异产生的差值就是估计偏差,也就是上面

\bar{X}_{t}

\bar{X}_{c}

之间差生的差异,由于它们是与策略效果线性的,系数是

\beta

,就有了公式(19),下面的公式(20)同理,只是有了分块的加权平均,公式(19)相当于整个实验组和对照组的平均值差异

然而,分层估计

\hat{\tau}^{start}

的估计偏差是:

那么综合公式(19)和公式(20),

\hat{\tau}^{start}

相比于

\hat{\tau}^{diff}

,在第

k

个相关变量上减小偏差的比例

\gamma_{k}

如公式(21)所示:

其中,

k

代表第

k

个相关变量,

j

表示第

j

块,

t

c

分别表示实验组和对照组。也是容易理解。

到了这里,我们知道分层方法能减少偏差,核心部分就是如何分层和如何利用分好的子块来估计ATE。

等频率是创建区块的常见策略。等频率方法通过样本出现的概率(如倾向分数)来分割块,使样本相关变量在每个子组(块)中具有相同的出现概率(即倾向分数)。等频率,是指每个子块的样本出现的频率一致,而不是等频率的分割样本,使每个块频数一样;这个频率这里介绍可以是样本出现的概率,既前文所提样本的稀缺度

ATE的计算方法是将每个块的CATE加权平均,以权重作为该块中样本的分数。然而,由于在倾向评分很高或很低的区块中,处理组与对照组之间的重叠不足,使这种方法存在较大的方差。即可能找不到出现频率类似的测试组和对照组子群。

为了减少方差,在原参考文献[55]中,首先根据倾向分数划分子块,然后使用各子块处理效果的方差的倒数对子块进行一下加权。这种方法虽然减少了等频法的方差,但不可避免地增加了估计偏差。

上述分层方法都是根据处理前变量对区块进行分割。然而,在一些现实的应用中,真正需要比较的是一些处理后变量,表示为

S

。例如,疾病进展的替代标记物(即中间结果),如艾滋病患者的CD4计数和病毒载量的测量是处理后变量[40]。在艾滋病患者的药物比较研究中,研究人员感兴趣的是艾滋病药物对CD4计数低于200细胞/mm组的影响。但是直接比较低于200细胞/mm组的效果是不准确的,因为如果策略对中间效果有影响,则相比较的组别之间的后处理变量可能差异很大,可能是比较了这样的两个子组:

\left\{i:W_{i}=1,S^{obs}<200\right\} 和 \left\{j:W_{j}=0,S^{obs}<20\right\}

为了解决这个问题,原参考文献[40]根据处理后变量的潜在值来构建子群(作者写成了处理前变量,ZZ怀疑是笔误,主观修改成了处理后变量)。与2.1中定义的潜在结果类似,潜在处理后变量值 S(W=w) 为 S 在策略值为 w 下的潜在值。根据三大假设, S 的潜在结果是独立于策略分配,子块的策略效果可以通过比较下面两组的结果来得到:

\left\{Y_{i}^{obs}:W_{i}=1,S_{i}(W_{i}=1)=v_{1},S_{i}(W_{i}=0)=v_{2}\right\}

\left\{Y_{j}^{obs}:W_{i}=0,S_{j}(W_{j}=1)=v_{1},S_{j}(W_{j}=0)=v_{2}\right\}

其中,

v_{1}

v_{2}

是两个处理后变量值。根据后处理变量的潜在值进行比较,确保比较的两组是相似的,因此得到的处理效果是真实的效果。

这个分层方法主要是后处理变量潜在值相近的组进行分层,以保证组间的样本比较类似;需要注意的是,是后处理的变量的“潜在值”类似的组别相比较

三休息一下

本节书接上文,我们介绍第二个处理混杂的方法,分层比较方法;ZZ简单总结一下它与样本全重更新方法的区别就是:

分层方法就是更粗略的样本更新权重方法;样本更新权重相当于每一个样本都是一个子群;当然了,每一个样本都是一个子群,会增大了估计的方差,是估计没有那么稳定!

对于本次介绍的分层方法,具体如何分群的方法,作者介绍的比较少,感兴趣的同学需要仔细琢磨一下;

ZZ看了后面的方法介绍,大概类似于分层方法这种,是思想上的介绍,不会像样本权重更新方法那样存在大量费解的公式,但是相对来说也就没有那么详细,需要读者进一步深入探索。

不管怎么说,到了这里,我们已经了解到了两种处理混杂的方法,后面的方法对我们来说也不具备什么难度,跟随ZZ,一起打通关吧!感觉不错,别只收藏,记得点个赞哈!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人人都是数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档