我正在尝试从我的dataframe中的单个csv格式化列创建一个新的dataframe。我之前不知道模式,所以我尝试使用没有模式参数的spark.createDataFrame方法(类似于中的方法1)。我正在尝试下面这样的代码,但会引发异常:
var csvrdd = df.select(df("Body").cast("string")).rdd</
我感到困惑的是,为什么在将得到的rdd.mapPartitions转换为DataFrame时,Spark似乎使用了1任务。),将非SQL函数应用于数据块(mapPartitions on RDD),然后转换回DataFrame,以便我可以使用DataFrame.write进程。我可以从DataFrame -> mapPartitions开始,然后使用像sav
,我需要获取一个Sparkdataframe,它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81的sc.parallelize(myList)来创建一个RDD
但是,我也不能选择该行的特定元素:sc.parallelize(myLi