V. Chernozhukov, D. Chetverikov, M. Demirer, E. Duflo, C. Hansen, and a. W. Newey. Double Machine Learning for Treatment and Causal Parameters. ArXiv e-prints 文章链接
背景
HTE问题可以用以下的notation进行简单的抽象
Y是实验影响的核心指标
T是treatment,通常是0/1变量,代表样本进入实验组还是对照组,对随机AB实验
(T perp X)
X是Confounder,可以简单理解为未被实验干预过的用户特征,通常是高维向量
DML最终估计的是
(theta(x))
,也就是实验对不同用户核心指标的不同影响
\begin{align}
Y &= \theta(x) T + g(X) + \epsilon &\text{where }E(\epsilon |T,X) = 0 \\
T &= f(X) + \eta &\text{where } E(\eta|X) = 0 \\
\end{align}
Generalized Method of Moments广义矩估计 (GMM)在经济学领域用的更多,在论文里乍一看到moment condition琢磨半天也没想起来,索性在这里简单的回顾下GMM的内容。
啥是矩估计呢?可以简单理解是用样本的分布特征来估计总计分布,分布特征由
(E((x-a)^K))
,样本的K阶矩来抽象,一阶矩就是均值,二阶原点矩就是方差。举几个例子吧~
例如,总体样本服从
(N(mu, sigma^2))
就有两个参数需要估计,那么就需要两个方程来解两个未知数,既一阶矩条件
(sum{x_i}-mu=0)
和二阶矩条件
(sum{x_i^2} - mu^2 - sigma^2=0)
。
再例如OLS,
(Y=beta X)
可以用最小二乘法来求解
(argmin (Y-beta X)^2)
,但同样可以用矩估计来求解
(E(X(Y-beta X))=0)
。实则最小二乘只是GMM的一个特例。
那针对HTE问题,我们应该选择什么样的矩条件来估计
(theta)
呢?
直接估计
(theta)
的矩条件如下
(E(T(Y-Ttheta_0-hat{g_0(x)}))=0)
DML基于残差估计的矩条件如下
(E([(Y-E(Y|X))-(T-E(T|X))theta_0](T-E(T|X)))=0)
作者指出DML的矩条件服从Neyman orthogonality条件,因此即便
(g(x))
估计有偏,依旧可以得到无偏的
(theta)
的估计。
参考材料&开源代码
V. Chernozhukov, M. Goldman, V. Semenova, and M. Taddy. Orthogonal Machine Learning for Demand Estimation: High Dimensional Causal Inference in Dynamic Panels. ArXiv e-prints, December 2017.
V. Chernozhukov, D. Nekipelov, V. Semenova, and V. Syrgkanis. Two-Stage Estimation with a High-Dimensional Second Stage. 2018.