当我使用Pandas和Dask将同一张表保存到拼图中时,Pandas创建了一个4k文件,其中Dask创建了一个39M文件。创建数据帧 import pandas as pdimport pyarrow.parquet as pqpq.write_table(pa.Table.from_pandas(df), 'example-pyarrow.parquet')
#
我有数千个csv文件,这些文件,使用dask,我已经重新划分和转换为地板使用达克。所以,我有一个有100个分区的拼花文件,但是现在我想读取这个拼花文件,并写出一个每个符号的拼花文件(股票数据)。此外,UnderlyingSymbol列中有4702个唯一符号。')
~/miniconda3/envs/ds2/lib/python3.9/site-packages/dask/dataframe/core.py in t