我正在尝试将大约300个单独的json文件读取到pyspark中。IllegalArgumentException: 'Unsupported class file major version 56'import pysparksc = SparkContext(appName='azure_test', conf=conf)
我是Spark和HDInsight的新手。我想知道下面的代码是如何工作的?我的意思是如何在集群节点之间调度作业。假设我有2个头节点和4个工作节点,哪些代码将在头节点上运行,哪些代码将在工作节点上运行? 我如何让Spark知道我想要在工作节点上执行一些代码? // the code is from https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-eventhub-streamingval pool = Executors.new
我正在尝试读取csv文件,因此我创建了一个SparkSession来读取csv。此外,我还创建了一个SparkContext,以便稍后使用rdd。我正在使用scala-ide。{SparkConf, SparkContext}import org.apache.spark.mllib.stat.Statistics("Create contex for rdd ")
val conf = new SparkConf(