我试图对一个数据集进行编码,然后由一个特定的列组成群,这样我就可以为该列中的每一项获取一行,并对该特定行的一个热列的值进行聚合。它似乎在处理小数据,而使用dask似乎适用于大型数据集,但当我试图保存文件时,我遇到了问题。我试过CSV和地板文件。我想保存结果,然后我可以在以后打开它块。下面的代码显示了这个问题(下面的脚本生成200万行和高达30k的唯一值到一个热编码)。import pandas as pdimport dask.datafr
我正在尝试使用dask_cudf/dask读取单个大的parquet文件(size > gpu_size),但它当前正在将其读取到单个分区中,我猜测这是从文档字符串推断出的预期行为: dask.dataframe.read_parquetstorage_options=None, engine='auto', gather_statistics=None, **kwargs):
Read a Parquet file into a DaskDataFr
我对dask还是个新手。我有很大的csv文件和很大的列表。csv的行的长度等于列表的长度。我正在尝试从列表在Daskdataframe中创建一个新列。在pandas中,它非常简单,但是在Dask中,我很难为它创建新的专栏。我避免使用pandas,因为我的数据是15GB+。name,text,addresstim,some text here too,WAimport dask.dataframe</e
考虑到这个DaskDataFrame: date value symbol我如何才能在“符号”列(这是类别[已知))上set_index?is not ordered for operation max
you can use .as_ordered() to change the Categorical
所以我试着写这样的代码:import pandas as pd
df = dd.from_pandas(data=df)
它会引发错误,并显示以下消息:ValueError: Exactly one of npartitions and chunksize must be specified.我想知道如何解决它,我应该如何计算DataFrame的npartitions或chunksize,就像