dask.dataframe.from_delayed逻辑地合并所有数据帧,就好像它们是一个可迭代的数据帧一样。当调用时,from_delayed遍历迭代(示例代码中的生成器)并创建延迟(pd.dataframe)的。 sleep(10) #Looping this generator is costly
ddf = dask.dataframe.fro
我在使用dask时遇到了问题。与熊猫相比,它非常慢,特别是在读取高达40G的大型数据集时。='threading')时)
我认为我可以忍受延迟,即使我很沮丧,但是,当我尝试将数据保存到parquet:df.to_parquet('my data frame', engine="fastparquet")时,它在具有大约110G内存的服务器上耗尽了内存。我注意到,当我执行fre