因果推断中期学习小结

悟乙己

发布于 2021-12-07 16:38:31

1.4K0

发布于 2021-12-07 16:38:31

文章被收录于专栏：素质云笔记素质云笔记

废话文学一下：入门学习因果推断三周，总算是入了个门

来集结一下前十篇分别是：

因果推断笔记——因果图建模之微软开源的dowhy（一）[1]

因果推断笔记—— 相关理论：Rubin Potential、Pearl、倾向性得分、与机器学习异同（二）[2]

因果推断笔记——python 倾向性匹配PSM实现示例（三）[3]

因果推断笔记——双重差分理论、假设、实践（四）[4]

因果推断笔记——因果图建模之微软开源的EconML（五）[5]

因果推断笔记——工具变量、内生性以及DeepIV（六）[6]

因果推断笔记——自整理因果推断理论解读（七）[7]

因果推断笔记——uplift建模、meta元学习、Class Transformation Method（八）[8]

因果推断笔记——数据科学领域因果推断案例集锦（九）[9]

因果推断笔记——CV、机器人领域因果推断案例集锦（十）[10]

这是本系列的第十一篇，算是一个中期阶段的汇总篇：

•第二+七是理论贴，一开始看各种合集教程会发现大家用的名词相当混乱，特别是核心的假定（Ignorability、Unconfoundedness ）。后面慢慢捋，又写了第七篇。•三+四+六+八都是因果推断中比较重要的方法，尤其是uplift是工业界兵家必备；•一+五是因果推断中比较成体系的开源项目，这里不得不佩服这些开源的作者，好的开源项目真的是最好的学习材料，包括之前学习生存分析的lifelines，这些项目把完整全面的理论、代码实践都融入到项目之中，而且高度凝练成为理论框架，dowhy + econml（或uber的CasualML ）组合是YYDS！•九+十，是两篇收集而来的案例集锦，收益良多，绝对给力。

后续可能会继续学习的方向：

•把 EconML 、 CasualML 这两个非常赞项目的案例都过一遍；•一些更细方法的学习，比如断点回归、uplift的tree based 、 NN-Based的方法等•因果推断与A/B 实验平台•一些新领域的关注：因果强化学习、多任务学习、因果表征学习等

接下来，主要结合各类案例来简单总结一下因果推断在数据科学方面的分析型应用，主要参考：因果推断笔记——数据科学领域因果推断案例集锦（九）[11]

1 分析型：因果推断在智能决策中应用

从腾讯看点的『观测数据因果推断应用-启动重置体验分析』，QQ浏览器的『QQ 浏览器：PUSH配额优化实践』，还有快手的『快手因果推断与实验设计』

里面都用因果推断在智能决策中进行应用落地，在这个方向中，可以使用的方法非常多，直接抄一下腾讯看点团队总结了非常给力的通用框架：

在是否有实验数据下，进行拆分，特别是实验数据可获得性非常差，所以这个时间，IV 、 DID、PSM的matching的方式就异常重要，比如：

断点回归在首章提升上的作用

改良的DID 在天气资讯分析上的作用

启动重置问题阐述：短期、长期、异质

快手的快手直播网页版对快手APP直播观看行为的影响

2 因果推断与A/B实验

随机实验是能够消除各类因果推断假定最好的方式，但是现实中困难点较多。当然，在流量充足的情况下，是值得去做的。关于因果推断与A/B 实验，后续会专门用心再学一下。贴一下比较好的

2.1 快手：双边实验设计

在双边实验中，同时进行了主播侧和观众侧的分流，主播侧一部分是上了挂件，观众侧一部分能看到一部分看不到，双边实验的优点是可以同时检测两端的效果，同时可以帮助检测到组间的转移和溢出。

在了解到组间溢出和干扰下，通过双边实验我们可以更加准确的测算处理效应，在挂件场景下，我们认为N3是代表完全没有处理过的效果，Y代表处理后的结果，N3和Y进行差分，计算产品功能推全后的影响，而且，双边实验能够更好的帮助我们归因。

然而双边实验只能描述简单的组间溢出，在个体和个体之间存在干扰的复杂情况下，双边实验是无法帮助我们判断实验效果，例如直播PK暴击时刻这种情况下，我们通过时间片轮转实验解决，即在一定实验对象上进行实验组策略和对照组策略的反复切换。

2.2 快手：时间片轮转实验

时间片轮转的核心在于：

•时间片的选择

• 实验总周期选择

•随机切换时间点是什么样子的当时间粒度约粗糙，时间上的干扰造成的偏差会越小，但是方差会越大，影响实验的检验效果，针对这个问题，采取的方案是最优设计。

最优设计的核心假设是：

•Outcome有一个绝对上界•用户无法知晓下一个时间是否是实验组•如果时间片之间存在干扰，干扰的影响是固定且有限的

当我们不知道一个时间片实验时间节点如何设计时，通常采取的步骤是，预估一个时间，通过实验确定carry over的阶数下限是多少，根据阶数下限，找到最优切换时间点，再进行一次实验，通过实验组和对照组的选择来进行因果效应的估计。其缺点在于，实验周期长，没有办法观测到HTE (heterogeneous treatment estimation)。

2.3 快手：城市实验 + 合成控制

当treatment施加到一个群体或者地区上时，很难找到单一的对照组，这种时候采用合成控制方法构造虚拟对照组进行比较，原理是构造一个虚拟的对照组，通过treatment前的数据上学习的权重，拟合实验组在实验开始前的数据，模拟实验组用户在没有接受实验情况下的结果，构造合成控制组，实验开始后，评估实验组和合成控制组之间的差异。

2.4 腾讯看点推荐类实验

References

[1] 因果推断笔记——因果图建模之微软开源的dowhy（一）: https://mattzheng.blog.csdn.net/article/details/119851996 [2] 因果推断笔记—— 相关理论：Rubin Potential、Pearl、倾向性得分、与机器学习异同（二）: https://mattzheng.blog.csdn.net/article/details/119855174 [3] 因果推断笔记——python 倾向性匹配PSM实现示例（三）: https://mattzheng.blog.csdn.net/article/details/119887208 [4] 因果推断笔记——双重差分理论、假设、实践（四）: https://mattzheng.blog.csdn.net/article/details/119892129 [5] 因果推断笔记——因果图建模之微软开源的EconML（五）: https://mattzheng.blog.csdn.net/article/details/119893298 [6] 因果推断笔记——工具变量、内生性以及DeepIV（六）: https://mattzheng.blog.csdn.net/article/details/120020123 [7] 因果推断笔记——自整理因果推断理论解读（七）: https://mattzheng.blog.csdn.net/article/details/120097306 [8] 因果推断笔记——uplift建模、meta元学习、Class Transformation Method（八）: https://mattzheng.blog.csdn.net/article/details/120154789 [9] 因果推断笔记——数据科学领域因果推断案例集锦（九）: https://mattzheng.blog.csdn.net/article/details/120083536 [10] 因果推断笔记——CV、机器人领域因果推断案例集锦（十）: https://mattzheng.blog.csdn.net/article/details/120251119 [11] 因果推断笔记——数据科学领域因果推断案例集锦（九）: https://mattzheng.blog.csdn.net/article/details/120083536