我在spark数据帧中有非常大的数据集,它们分布在节点上。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试,我会使用像scipy这样的python库,因为标准的apache pyspark库没有它们。但为了做到这一点,我必须将spark数据帧转换为pandas,这意味着将数据强制到主节点中,如下所示: import scipy.stats as stat
我想计算马尔可夫链中几个序列的概率。我已经准备好了马尔可夫链,但我不确定如何轻松地计算特定的序列概率。我的熊猫数据帧左边有A-E作为索引,顶部有A-E作为列,称为马尔可夫,如下所示: A B C D EB 0.2 0.4 0我成功地使用了pandas的.at函数: markov.at[sequence[0], sequence[1]] *