我经常有很多观测数据缺失。有时这意味着我有一对没有重叠观测的列,所以我不能计算两者之间的协方差。
但是我想知道最大的列集,其中的所有对列都有重叠的观测值(至少有2个,但如果有一个列有很多),这样我就可以计算一个不缺少值的协方差矩阵(所有是对的协方差)。
作为一个例子,考虑下面的python代码。
>>> import pandas as pd
>>> import numpy as np
>>> n = np.nan
>>> d = pd.DataFrame(
np.array(
[[1, n, 2, 4, 2, n, 6