我有一千万的记录数据。我的要求是,我需要对熊猫的这些数据做一些操作,而且我对所有1000万条记录都没有记忆。所以我希望能够对每个块进行分块并使用toPandas#do chunking to take X records at a timep_df = chunked_df.toPandas()如何通过记录计数将我的数据分割成相等的x-部分或部分,比如一次一百万。这两种解决方案都是
我的理想解决方案允许矢量化的Pandas应用,而不需要任意分组,但如果我能够保存任意分组,至少可以消除洗牌。下面是我的代码。@pandas_udf(b_schema, PandasUDFType.GROUPED_MAP) b = a_partition.drop("pid", axis=1) return b
.read.parquet(a_path)