我试图从google存储中读取大量的csv文件(多个文件)。我使用Dask分发库进行并行计算,但我面临的问题是,虽然我提到了块大小(100 my ),但我不知道如何按分区读取分区并将其保存到postgres数据库中,这样我就不想让内存超载。processes=False)
import dask.dataframe as
我知道有一些关于这个主题的问题,但我似乎不能有效地进行。我的机器上运行着包含8GB of memory的大型输入数据集(2-3 GB)。我使用的是安装了pandas 0.24.0的spyder版本。本质上,我将输入文件chunk成较小的片段,通过一些代码运行它,然后导出较小的输出。然后我删除分块的信息以释放内存。但在整个操作过程中,内存仍然会不断积累,最终会花费类似的时间。objectdtypes: ob
我在ETL中使用dask而不是pandas,即从S3存储桶中读取CSV,然后进行一些所需的转换。Until here - dask读取和应用转换的速度比pandas快!最后,我使用to_sql将转换后的数据转储到Redshift。在dask中这个to_sql转储比在pandas中花费更多的时间。
有没有可能缩短这段时间?如果不是