我正在创建一个函数,该函数读取整个文件夹,创建一个Dask数据帧,然后处理该数据帧的分区并对结果求和,如下所示: import dask.dataframe as dd total = delayed(sum)(partial_results)
return total 在partitions_func (another_function)中调用的函数也会被延迟
我对client.persist()和client.compute()之间的区别感到困惑,它们似乎(在某些情况下)都开始了我的计算,并且都返回异步对象,但在我的简单示例中并非如此:fromdask.distributed import Clientclient = Client()
return argsresult = [delayed(f)(x) for x in range(100