首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >基于列值高效地从宽Spark数据帧中删除列

基于列值高效地从宽Spark数据帧中删除列
EN

Stack Overflow用户
提问于 2019-10-31 03:11:06
回答 1查看 94关注 0票数 1

如果我有一个只包含IP地址的宽数据帧(200m cols),并且我想删除包含空值或格式不佳的IP地址的列,那么在Spark中执行此操作的最有效方法是什么?我的理解是Spark并行地执行基于行的处理,而不是基于列的处理。因此,如果我尝试在列上应用转换,将会有大量的混洗。首先转置数据帧,然后应用筛选器删除行,然后重新转置是利用spark并行性的好方法吗?

EN

回答 1

Stack Overflow用户

发布于 2019-10-31 04:53:00

您可以使用structure org.apache.spark.ml.linalg.SparseMatrix以CSC格式存储矩阵

如果您可以过滤此数据类型并将其转换回dataframe,那么这将是您最好的选择

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58632229

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档