我有一个pandas数据帧,所有的列都是对象类型。我试图通过键入cudf.from_pandas(df)将其转换为cudf,但出现了以下错误:
ArrowTypeError: Expected a bytes object, got a 'int' object我不明白为什么这些列都是字符串而不是整型。我的第二个问题是如何向cudf追加一个新元素(如pandas : df。append()
我正在使用Dask和Rapidsai在一个大型(6.9 on )数据集上运行xgboost模型。硬件是4x2080TI,每个都有11 GB内存。原始数据集有几十个经过一次热编码的目标列,因此我尝试运行一个循环,每次保留一个目标列,删除其余列,运行模型,然后重复。LocalCUDACluster(n_workers=4) as cluster: raw_data = dask_cudf</
我正试图使用dask_cudf对一个非常大的数据集(150,000,000+记录)进行预处理,以便进行多类xgboost培训,并且无法对类列(dtype is string)进行编码。我试着使用“替换”函数,但是错误消息说这两个dtype必须匹配。我试过使用dask_ml.LabelEncoder,但它说cudf中不支持字符串数组。我尝试过以各种方式使用compute(),但是我一直遇到内存不足的错误(我假设是因为cudf</