在我的理解中,列格式更适合于MapReduce任务。即使对于某些列的选择,columnar也能很好地工作,因为我们不必将其他列加载到内存中。但是在Spark3.0中,我看到在查询计划中应用了这个ColumnarToRow操作,根据我从可以理解的,查询计划将数据转换为行格式。 'a': [i for i in
下面的问题有scala和pyspark的解决方案,而这个问题提供的解决方案不是针对连续索引值的。Spark Dataframe :How to add a index Column : Aka Distributed Data Index 我在Apache-spark中有一个现有的数据集,我想根据索引从中选择一些行我计划添加一个包含从1开始的唯一值的索引列,并根据该列</e