我有很多带标签的excel文件。我想把它们都连接起来,一次一个制表符。(files[0]).sheet_names 现在,假设我的标签是alpha,beta,gamma等,我想创建一个数据帧df_alpha,df_beta等的列表,它们是中文件的所有alpha标签的并集。我的目录。通过执行以下操作: for sheet in sheets: for f
我在spark数据帧中有非常大的数据集,它们分布在节点上。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试,我会使用像scipy这样的python库,因为标准的apache pyspark库没有它们。但为了做到这一点,我必须将spark数据帧转换为pandas,这意味着将数据强制到主节点中,如下所示: import scipy.stats as stats
pan