我一直在尝试修改我的代码,以利用Dask来利用多台机器进行处理。虽然初始数据加载并不费时,但随后的处理在8核i5上大约需要12小时。这并不理想,并认为使用Dask帮助在机器上传播处理将是有益的。以下经过达克改编的代码引发一个ValueError: cannot reindex from a duplicate axis错误:from dask.distributedDask DataFrames的首选方法是什么?
我正在学习dask,并且在这里和那里得到这个错误: InvalidIndexError: Reindexing only valid with uniquely valued Index objects有一个经过预处理的dask df,我用它做了很多操作,但有几个简单的操作抛出了这个错误。: Reindexing only valid with uniquely valued Index objects 需要指出的是,只有test抛出错误 这里我试图重现它,但它的工作方式应该是这样的:import numpy as np