我在spark数据帧中有非常大的数据集,它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计,如mean、stdev、skewness、kurtosis等。但为了做到这一点,我必须将spark数据帧转换为pandas,这意味着将数据强制到主节点中,如下所示: import scipy.stats as statsJBtest=st
我希望迭代数据帧的行,同时仍然能够引用每个值的标头 for index in range(len(df)): fruits_in_stockdf.ioc[i]) vegetables_in_stock = generate_list_of_veg(df.ioc[i]) 现在,在向每个方法传递了一行之后,我无法调用标头 输入数据帧 store_