我有一个scala List List[Any] = List("a", "b",...),我需要获取一个Sparkdataframe,它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81的sc.parallelize(myList)来创建一个RD
我有一个返回数据的UDF。就像下面的那个res3: org.apache.spark.sql.DataFramepredict_churn", outerpredict _)java.lang.UnsupportedOperationException: Schema for type org.apache.spark</em
下面是我正在做的事情: 1.将csv文件加载到一个单列表中。) IS NOT NULLselect record where my_validation(record) IS NULL;
这里是我的问题: a.有没有更好的方法来过滤无效的记录;b. my_validation UDF是否在整个表上运行两次?c.将单列拆分为多列<