我尝试使用dask 来OneHotEncoding我的数据。但结果并不像预期的那样。达斯克的DummyEncoder示例:import pandas as pd
data = pd.DataFrame之所以要这样做,是因为我将编码列的子集,然后将得到的encoded_df连接到主df,同时从主df中删除主列。内部使用熊猫
freeze and no files get written
选择新的分区,以便每个分区中文件的总内存不超过1000 MB。但是,最后的to_parquet调用将永远挂起。在dask仪表板上,没有任何活动。所有工作人员消耗的内存仍然非常小(55 it ),至少在仪表板中是这样;但是我怀疑它可能只是没有更新,因为一切都变得非常慢。运行代码的python进程不断增加内存消耗( Mac中的</e