
我有这样一种类型的文件,其中除了前几个单词之外,每一行都是一个JSON对象(见附件)。我想使用Spark和Scala解析这种类型的文件。我尝试过使用sqlContext.read.json(“json文件的路径”),但它给出了错误(数据损坏),因为整个数据都不是JSON对象。如何将此JSON文件解析为SQL dataframe?
发布于 2017-03-03 17:33:34
试试这个:
val rawRdd = sc.textFile("path-to-the-file")
val jsonRdd = rawRdd.map(_.substring(32)) //32 - number of first characters to ignore
val df = spark.read.json(jsonRdd)https://stackoverflow.com/questions/42574477
复制相似问题