近日,北京大学经济学院预聘副教授王法合作论文Inference for Large Dimensional Factor Models under General Missing Data Patterns发表于计量经济学领域一流期刊Journal of Econometrics。论文合作者为清华大学经济管理学院苏良军教授。
论文简介
高维因子模型在实际应用中经常存在数据缺失问题,并且在大数据时代随着数据量的增长,数据缺失越来越普遍和严重。本文建立了在存在缺失数据情况下,对大规模因子模型进行最小二乘估计的推断理论。文章提出了一个统一的渐近分析框架,涵盖了多种缺失模式,包括异质随机缺失、基于协变量/因子/载荷的选择性缺失、区块式/交错式缺失、混合频率数据以及数据边缘不齐等情况;建立了估计因子空间和载荷空间的平均收敛速度,推导了估计因子和载荷的极限分布,以及因子增强回归中所估计的平均处理效应和参数估计的极限分布。这些结果能够合理地填补不平衡面板数据,或对异质性处理效应进行推断。在计算方法上,该文章使用核范数正则化估计量作为初始值,然后用EM算法迭代直到收敛。在实证研究中,将该方法应用于检验政党一致性对英国拨款分配的平均处理效应。
在存在缺失的情况下高维因子模型的主成分估计法不再适用,而EM算法一直是处理因子模型中缺失数据的最流行的方法之一。然而,尚不清楚该算法是否能收敛到全局最优解,以及在什么样的缺失模式下EM估计法在渐近意义下是有效的。本文澄清了EM算法用于数据缺失因子模型的工作机理,严格证明了只要初始估计量在Frobenius范数意义下是一致的,EM算法得到的估计量在非常广泛的缺失模式下与完整数据情形具有相同的渐近性质。
在过去的二十年里,因子模型的缺失数据问题在多个研究领域引起了广泛关注,包括机器学习文献中的矩阵补全、因果推断文献中异质性处理效应,实证宏观研究中的混频时间序列,实证资产定价中的公司特征数据缺失等等。这些文献的共同目标是对因子和载荷进行一致估计并建立相应的理论性质。它们的不同之处在于针对各自的应用场景,各个文献关注的数据缺失模式和算法性质不同。例如,机器学习文献主要关注完全随机缺失和算法在超大规模数据下的速度,而经济学文献中更关注非随机缺失和估计方法的渐进正态分布特性。本文的算法和理论能够覆盖所有上述文献中的缺失模式以及一些其它的缺失模式。
全文信息:
Su, L. and Wang, F., 2025. Inference for large dimensional factor models under general missing data patterns,Journal of Econometrics250, p.106022.
文章地址:
https://webofscience.clarivate.cn/wos/alldb/full-record/WOS:001500418800001
作者简介
王法
北京大学经济学院金融学系预聘副教授、博士生导师,研究领域为金融计量,面板数据,资产定价。近期主要研究非线性因子模型及其在资产定价,宏观经济预测和经济周期分析中的应用。多篇研究成果发表于Journal of Econometrics和Econometric Reviews等国际一流期刊,并多次担任Journal of Royal Statistical Society Series B, Journal of Econometrics, Econometric Theory, Journal of Business & Economic Statistics, Journal of Applied Econometrics, Psychometrika,Science China Mathematics等一流期刊的审稿人。
供稿:科研与博士后办公室
美编:初夏
责编:度量、雨禾、雨田