我已经使用sqlContext创建了读取csv文件的数据帧,我需要从其中将表的一列转换为RDD,然后使用密集向量执行矩阵乘法。我发现这样做很困难。
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header","true")
.option("inferSchema","true")
.load("/home/project/SparkRead/train.csv")
val result
我很好奇范围是如何与数据框架和星火一起工作的。在下面的示例中,我有一个文件列表,每个文件都独立加载在一个数据帧中,执行一些操作,然后将dfOutput写到磁盘。
val files = getListOfFiles("outputs/emailsSplit")
for (file <- files){
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("delimiter","\t")