我在ETL中使用dask而不是pandas,即从S3存储桶中读取CSV,然后进行一些所需的转换。Until here - dask读取和应用转换的速度比pandas快!最后,我使用to_sql将转换后的数据转储到Redshift。在dask中这个to_sql转储比在pandas中花费更多的时间。
有没有可能缩短这段时间?
我创建了2个空的documentDB集合: 1)单分区和2)多分区。接下来,在这两个集合上插入一行并运行扫描(select * from c)。我发现单个分区占用了大约2RU,而多分区占用了大约50RU。这不仅仅是RU的问题,多分区的读取延迟也要慢20倍左右。那么,当跨分区查询时,多分区总是具有高读取延迟吗?