Meta Learner和之前介绍的Causal Tree直接估计模型不同,属于间接估计模型的一种。它并不直接对treatment effect进行建模,而是通过对response effect(target)进行建模,用treatment带来的target变化作为HTE的估计。主要方法有3种:T-Learner, S-Learner, X-Learner,思路相对比较传统的是在监督模型的基础上去近似因果关系。
Meta-Learner的优点很明显,可以使用任意ML监督模型进行拟合不需要构建新的estimator。所以如果有必需要基于DNN/LGB的需求不妨用Meta-Learner作为Benchamrk
Künzel, S. R., Sekhon, J. S., Bickel, P. J., & Yu, B. (2019). Metalearners for estimating heterogeneous treatment effects using machine learning. Proceedings of the National Academy of Sciences, 116(10), 4156–4165.
T是two的缩写,是比较传统的ML模型用于因果推理的方式。对照组和实验组进行分别建模得到两个模型,对每个样本计算两个模型的预测值之差作为HTE的估计 \[ \begin{align} \mu_0(x) = E[Y (0)|X = x]\\ \mu_1(x) = E[Y (1)|X = x]\\ \hat{\tau}(x) = \hat{\mu}_1 (x) - \hat{\mu}_0(x) \end{align} \]
T-Learner有3个很明显的问题
S是Single的缩写,把对照组和实验组放在一起建模,把实验分组作为特征加入训练特征。然后用Imputation的方法计算如果该样本进入实验组vs对照组模型预测的差异作为对实验影响的估计。
\[ \begin{align} μ(x, w) &= E[Y|X = x, W = w]\\ \hat{\tau}(x) &= \hat{\mu} (x,1) - \hat{\mu}(x,0) \end{align} \]
S-Learner的问题同样在于本质是对response进行拟合。如果使用树作为Base-learner,最终的HTE可以简单理解为样本落在不同的叶节点,叶节点的样本差异。但因为树本身是对outcome进行建模而非对treatment effect进行建模,很有可能有效的人群划分方式在这种情况下并学习不到。
S-Learner的思想很常见,和可解释机器学习中的Individual Conditional Expectation(ICE)本质是一样的, 在全样本上求平均也就是大家熟悉的Partial Dependence。
X-Learner是针对上述提到的问题对T-Learner和S-Learner进行了融合。步骤如下
在作者分别给出几种可能类型的simulation,并评估S,X,T的表现。以下分别是:Treatment unbalanced, CATE complex linear, CATE complex non-linear, HTE=0 global linear, HTE=0 local linear。
简而言之,实验影响较大时X-Learner表现最好,实验影响微小时S-Learner和X-Learner表现差不多。