我收集了大量的条目E和函数f: E --> pd.DataFrame。对于不同的输入,函数f的执行时间会有很大的变化。最后,所有DataFrames都应该连接到一个DataFrame中。我想避免的情况是分区(为示例起见使用2个分区),在分区1上意外地发生所有快速函数执行,在分区2上执行所有缓慢执行,因此不能优化地使用工作人员。====][===============]
我目前的解决方案是迭代条目集
合并位于两个列A和B上,我没有设置任何索引:from dask.diagnostics import ProgressBar
large_df = dd.read_csv(dataframe2) #as dask.dataframe
df2 = large_df.mergewould fit on m
我希望在自定义调度程序上运行Dask任务,类似于Ray上的Dask工作方式。目前,我正在使用Dask的配置来指定调度程序:这种方法适用于简单的Daskdataframe操作,如下面这样的操作dask.config.set(scheduler=my_custom_scheduler)
if __name__ == "__main__"