前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >因果推断文献解析|A Survey on Causal Inference(1)

因果推断文献解析|A Survey on Causal Inference(1)

作者头像
用户8612862
发布2021-05-13 17:23:14
8900
发布2021-05-13 17:23:14
举报

1介绍

近来,因果分析理论越发热门,公司中很多业务发展也需要用到相关理论支撑。那么,ZZ也来学习一下新知识,与知友共勉。

学习一个新领域需要先了解它的整体框架和知识脉络,再深入研究。所以近期我们先来分享一些经典综述型论文,希望能给感兴趣的伙伴提供一些思路和借鉴。点击文末【阅读原文】即可查看文章。

为了区分是原文内容还是ZZ自己的理解,下面ZZ自己的旁白用粗体标出。

2正文解析

摘要

首先文章说明了因果推断的重要性,ZZ不再赘述。然后介绍了一下本文的主要内容和贡献:

在本研究中,作者提供了关于“潜在结果框架”的完备介绍,那么这个“潜在结果框架”是一个著名的因果推理框架,另外一个很著名的是“结构因果框架”,本文将不会详细介绍,但是作者提供了一些参考文献以供学习。

作者根据这些“潜在结果框架”方法是否以“潜在结果框架”的三个假设为前提,分为了两类。对于这两类,无论是传统的统计方法还是最近的机器学习增强方法都进行了讨论和比较。文章也介绍了这些方法的应用实例,包括在广告、推荐、医药等方面的应用。此外,还总结了常用的基准数据集和开源代码,方便研究者和实践者探索、评价和应用因果推理方法。

摘要常规套路,但是有助于我们了解学习本文我们能得到的东西,这个摘要分量就很重,ZZ感觉这篇论文搞下来,因果推断的知识量要迎来一个大爆炸了!

引言

首先作者说明,相关不等于因果,然后描述了这两个概念代表的不同含义:

相关是指变量之间呈现上升或者下降的趋势;但是因果是指原因和结果、因果推断是给出“在某些条件下,当前效果的原因是什么”这样一个结论、因果推断的主要目的是刻画出当原因有所变化时,结果会如何反映!

然后作者举出一个例子来说明关联并不等于因果:

研究表明,吃早饭的女孩子更苗条;这个例子说明吃早饭与女孩子的苗条有相关性,但是我们不能得出因果结论:吃早饭有助于减肥,这是显而易见的。那么为什么会这样呢?究其因果可能是吃早饭的女孩子作息更规律,生活习惯更健康导致更苗条。

通过这个例子我们深刻的发现,相关只是表象,我们迫切的希望透过表现看到背后的因果。但是作者话锋一转:大家想知道因果,但是刻画因果却是一个有挑战的事情啊!并说明,众所周知,刻画因果目前最有效的一种方式就是“随机试验”,也就是ZZ之前介绍很多的AB试验。既然随机试验这么好,问题已经解决了,我们还有继续的必要吗?

作者紧接着就说了,随机试验是挺好,但是它耗时耗力,并不是什么领域都能做,试验样本也未必能代表总体;除了这些,随机试验只考虑平均值,没有刻画每个个体的差异,有时候还涉及了道德问题。总之来说,随机试验虽然好,但是试用范围还不够。所以,我们不通过试验去创造数据,设计直接基于可观测数据的因果推断方法很重要。

作者接下来说明了直接获取观测数据比较容易,主要问题在于我们如何获取反事实的结果呢?举个例子说明:我们想回答某个患者服从与之前不同的药物会有什么不同的疗效呢?回答这种问题有两个挑战:

  1. 我们每次只能观测到一个真实的结果,我们不可能让患者回到原来水平再尝试另一种治疗方案;
  2. 现实的观测数据中,群体的选择是有偏的,即我们只会给某些特定的患者以特定的治疗,这些特定的患者不能代表一般群体;

当然了,有问题就要解决,为了解决这些问题,研究人员提出了很多框架方法,其中最主要的两种就是潜在因果框架和结构因果模型;潜在因果框架最被人所熟知的是“the Neyman-Rubin Potential Outcomes or the Rubin Causal Model.”那么还是上面的例子,面对吃早餐的女孩子更苗条的现象,潜在因果框架的思路是评估同一个女孩子吃早饭和不吃早饭两种情况下的体重情况,我们知道,在同一时间,我们只能得到一种真实的观测值,对于另一种策略下的结果就是我们想要刻画的潜在结果,一旦这个潜在结果被我们估计出来,我们就可以说明吃早饭对女孩体重的影响了,因为这是通过比较同一个女孩在两种策略下的不同结果,潜在因果框架就是这样一种处理问题的思路。

另外一种有影响力的因果推断框架是结构因果框架,它通过因果图和结构方程的形式来刻画因果关系。

本文主要关注潜在因果模型,对于结构因果模型简单介绍,后续我们可以通过一些文献和书籍来了解这个著名的因果推断框架,最后提一下,结构因果框架是因果领域的超级大牛朱迪亚·珀尔(Judea Pearl)的杰作。

然后作者介绍了一下机器学习和因果分析的相辅相成,机器学习使潜在结果评估更准确,因果推断使机器学习更稳定鲁棒,具有可解释性;进一步说明因果推断的重要性。

接下来就是作者的猎杀时刻:

首先介绍本篇文章的架构:文章提供了一个在潜在结果框架下的因果推理方法的全面总结;首先介绍了潜在结果框架的基本概念以及它的三个关键假设来识别因果效应。在此基础上,详细讨论了基于这三种假设的各种因果推理方法,包括权重分配方法、分层推理方法、基于匹配的方法、基于树的方法、基于表征的方法、基于多任务学习的方法和基于元学习的方法。此外,本文还介绍了放松上述三个假设的因果推断方法,以满足不同情况下的需求。在介绍了各种因果效应估计方法之后,以广告领域、推荐领域、医药领域和强化学习领域为代表,讨论了这些方法在现实应用中极大的潜力。

然后说明本文的突出贡献:

虽然有一些文章讨论了某一类因果效应估计方法,如基于匹配方法的总结,基于树和基于集合的方法的总结,以及动态处理机制的回顾。但是据作者所知,这是第一篇对潜在结果框架的因果推理方法进行全面总结的论文。对于结构因果模型,建议参考文献[91]或书[90](祥见原文文献

在这篇总结的最后,作者还将简要讨论这两个因果框架之间的关系和区别。还有一项关于从观察数据学习因果关系的综述,其内容包括从观察数据推断因果图、结构因果模型、潜在结果框架以及它们与机器学习的联系。与上述总结文献相比,本文主要关注潜在结果框架的理论背景、统计领域和机器学习领域的代表性方法以及该框架与机器学习领域如何相互增强。

综上所述,本文主要贡献如下:

新的归类方法:根据因果推理方法是否需要以潜在结果框架的三个假设为前提,将其分为两大类。根据处理混杂变量的方法,将需要三个假设的那一类方法进一步分为七个子类别。

全面的回顾:我们提供了一个在潜在结果框架下的因果推理方法的全面调研总结。对于每一类方法,我们对其中代表性的方法进行了详细的描述,并对上述两大类方法进行了联系和比较,最后给出了全面的回顾。

丰富的资源:在这份总结中,我们列出了最先进的方法、基准数据集、开源代码和代表性的应用案例。

本文的其他组成部分如下。在第2节中,介绍了潜在结果框架的背景,包括基本定义、假设和基本问题及其一般解决方案。第三节给出了在三种假设条件下的因果推断方法。然后,在第4节,我们讨论了一些假设不满足时的问题,并描述了放松这些假设的推断方法。接下来,我们在第5节提供实验过程描述。随后,在第6节中,我们给出了因果推理的典型应用。最后,第7节对全文进行了总结。

3休息一下

本篇先把摘要和引言给大家呈现一下,了解一下本文的目的,文章脉络和主要贡献。有助于我们建立对本文进行全面学习的信心。不知道大家看完什么感受,但是ZZ读到这里,感觉真的是找对了文献,这就是我想要的知识啊!

对于后面的主体内容,ZZ将逐渐奉上,希望感兴趣的小伙伴点个赞,关注ZZ。其实摘要和引言没什么好解析的,主要是翻译,但是后面的因果推断模型和模型构建背后的思维才是精华,希望大家不要错过精彩解析!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人人都是数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1介绍
  • 2正文解析
  • 3休息一下
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档