我在ETL中使用dask而不是pandas,即从S3存储桶中读取CSV,然后进行一些所需的转换。Until here - dask读取和应用转换的速度比pandas快!最后,我使用to_sql将转换后的数据转储到Redshift。在dask中这个to_sql转储比在pandas中花费更多的时间。
有没有可能缩短这段时间?
我们有几个进程,它们使用SQLAlchemy从DB中提取数据,然后使用Pandas来操作数据。我是否在我的sql中使用cast()拉取到较小的数据类型?df = pd.read_sql("select cast(column_name as smallint) from schema.table;")df = pd.read_sql("selectcolumn_name from schema.table;", dtype={"column_nam