我正在创建一个函数,该函数读取整个文件夹,创建一个Dask数据帧,然后处理该数据帧的分区并对结果求和,如下所示: import dask.dataframe as dddef another_function(partition): return result 我检查了一下,在处理过程中创建的变量都很小<
我有一个dask Series X,里面填满了包含许多文本的字符串,我想将其拆分为多个列。这就是我所做的:W = X.str.split(n=cols, expand=True) #X has 3320 lines and npartitions=1000
我不能简单地增加分区的数量来说明列大小,因为dask是按行对DataFrame进行分区的。是否有可能改为在列上进行分区?