我一直试图在Bonobo中加入不同的数据源(MySQL和PostgreSQL),但到目前为止,我一直在努力应对paralelism,而bonobo是否是最适合这样做的工具?graph
但是,在我的情况下,atm真正需要的是用另一个表中的另一个数据加入这个获取(这可能是dask/熊猫中的一种连接)。bonobo_sqlalchemy.Select('SELECT * FROM ta
([dask.delayed(read_file)(x, indx) for (indx, x) in enumerate(files_list)])选择新的分区,以便每个分区中文件的总内存不超过1000 MB。但是,最后的to_parquet调用将永远挂起。在dask仪表板上,没有任何活动。所有工作人员消耗的内存仍然非常小(55 it ),至少在仪表板中