我正在使用intellij项目加载Spark,但没有安装Spark。
val spark = SparkSession.builder().config(sparkConf).getOrCreate()
我已经通过使用以下命令将com.spark.databricks.xml添加到spark
sparkConf.set("spark.driver.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.setExecutorEnv("spark.driver.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.set("spark.executor.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.setExecutorEnv("spark.executor.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.setJars(Array("C:/.../spark-xml_2.11-0.4.1.jar" ))
并使用
spark.sparkContext.addJar("C:/.../spark-xml_2.10-0.2.0.jar")
但是当尝试使用spark.read.format ("com.databricks.spark.xml")
时,我得到了异常“找不到数据源: com.databricks.spark.xml。请在http://spark.apache.org/third-party-projects.html上查找包”。
我该如何解决这个问题?我知道建议使用spark-shell添加jars,但我没有spark-shell,因为我没有安装spark…
发布于 2017-12-27 02:36:08
如果你有一个带有maven/sbt的项目,你可以添加spark-xml依赖项,如下所述:
<!-- https://mvnrepository.com/artifact/com.databricks/spark-xml -->
<dependency>
<groupId>com.databricks</groupId>
<artifactId>spark-xml_2.11</artifactId>
<version>0.4.1</version>
</dependency>
参考:https://mvnrepository.com/artifact/com.databricks/spark-xml_2.11/0.4.1
https://stackoverflow.com/questions/47981889
复制相似问题