我有sparkscala应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我在期货中调用它们,它们返回给我未来类型的DataFrame,我如何在最后合并它们,并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试在onComplete块中应用数据帧的联合时,它显示以下错误
value union is not a member
我尝试使用spark 1.4.0和tachyon 0.6.4上的堆存储来持久化我的RDD,如下所示:a.persist: Block rdd_10_3 not found
at org.apache.spark.storage.BlockManager.getBlockData(BlockManager.scala$ofRef.map(ArrayOps
在Spark1.6.0中,我有一个包含职务描述的列的数据框架,如:bartenderemployee...我使用以下方法从该列检索唯一值列表:
val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[peoplewithjob = people.filter($&q
我写了一个类,它得到一个DataFrame,在它上面做一些计算,并可以导出结果。数据帧由密钥列表生成。that is saved to HDFS我认为在Scala列表中的foreach是不平行的,那么我如何避免在这里使用foreach呢?DataFrames的计算可以并行进行,因为计算结果不是下一个DataFrame的输入-我如何实现这一点?null
编辑2:好吧,我不