我将Scala文件编译为JAR,并使用Databricks UI中的spark-submit运行作业。该程序的逻辑首先创建一个随机种子列表,并使用下面的代码行将其并行化: val myListRdd = sc.parallelize(myList, partitions) 接下来,我希望在这个RDD上运行一个处理函数该函数的返回类型为Array[Array[Double]]。因此,在Scala中,它将如下所示: val result = myListR
评估数据帧是否为空的方法之一是执行df.rdd.isEmpty(),但是,我在sparkUI执行中看到了rdd at mycode.scala:123。这让我怀疑这个rdd()函数是否实际上是一个操作,而不是一个转换。我知道isEmpty()是一个动作,但我确实看到了一个单独的阶段,其中isEmpty() at mycode.scala:234,所以我认为它们是不同的动作?