我有一个被多次调用的方法。此方法如下所示: val newRDD = myRDD.map(.....我想取消持久化newRDD,因为该方法被多次调用,并且我不想要4个不同缓存的newRDDs副本。separateGoodAndBad(secondRDDTransformed)
val thirdRDDTransformed = doStuffT
我有一个包含异构StructType的数据集,可以按类型分组并对其应用JSON。例如,RDD[(Type, JSON)]和Set[Type],包含原始RDD中的所有类型。现在,我想将这些JSON写入到一个类型化的Parquet文件中,并按类型进行分区。val getSchema: Type => StructType = ???types.foreach { jsonType =>
val sparkSchema: S