我想为一个大的spark数据帧计算成对的kendall的tau等级相关性。它很大(比如10m行,10k列),不能转换成pandas数据帧,然后使用pandas.DataFrame.corr进行计算。此外,每列可能具有空值,因此在计算成对的kendall's tau时,需要排除两列中任何一列中具有空值的行。
我查过pyspark.mllib.stat.Statistics.corr了。= d
我有来自三个市场的每日回报(GLD,间谍和USO)。我的目标是在130天的滚动基础上,从相关矩阵中计算出平均成对相关性。我的出发点是:import pandas as pdimport pandas.io.data as webfrom pandas.io.data import DataReader
s