如果我有一个只包含IP地址的宽数据帧(200m cols),并且我想删除包含空值或格式不佳的IP地址的列,那么在Spark中执行此操作的最有效方法是什么?我的理解是Spark并行地执行基于行的处理,而不是基于列的处理。因此,如果我尝试在列上应用转换,将会有大量的混洗。首先转置数据帧,然后应用筛选器删除行,然后重新转置是利用spark并行性的好方法吗?
发布于 2019-10-30 20:53:00
您可以使用structure org.apache.spark.ml.linalg.SparseMatrix以CSC格式存储矩阵
如果您可以过滤此数据类型并将其转换回dataframe,那么这将是您最好的选择
https://stackoverflow.com/questions/58632229
复制