我正试图使用dask_cudf对一个非常大的数据集(150,000,000+记录)进行预处理,以便进行多类xgboost培训,并且无法对类列(dtype is string)进行编码。我试着使用“替换”函数,但是错误消息说这两个dtype必须匹配。我试过使用dask_ml.LabelEncoder,但它说cudf中不支持字符串数组。我尝试过以各种方式使用compute(),但是我一直遇到内存不足的错误(我假设是因为cudf dataframe上的操作需要一个更小
我对client.persist()和client.compute()之间的区别感到困惑,它们似乎(在某些情况下)都开始了我的计算,并且都返回异步对象,但在我的简单示例中并非如此:fromdask.distributed import Clientclient = Client()
return argsresult = [delayed(f)(x) for x in range(1000)]
x1 =
我正在创建一个函数,该函数读取整个文件夹,创建一个Dask数据帧,然后处理该数据帧的分区并对结果求和,如下所示: import dask.dataframe as dd
from dask import分区可以非常大,但不能大于可用RAM。 当我执行partitions_func(folder)时,进程被终止。起初,我认为问题与两个delayed有关,一个在another_function上,另一个