我想从Kafka主题中读取使用Python的Spark streaming的值。我使用的是带有spark-streaming-kafka-0-8支持的DStream应用程序接口(尽管已被弃用)。我的代码如下: from pyspark import SparkContext, SparkConf
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
# Local SparkContext and StreamingContext (batch interv
我在AWS EMR上使用Spark Streaming连接到AWS MSK上的Kafka集群。我正在使用spark-sql-kafka-0-10和Spark 2.4.3。
如果安全组配置不正确,Spark Streaming作业会卡住数小时,并显示以下警告:
20/06/29 14:10:42 WARN NetworkClient: [Consumer clientId=consumer-1, groupId=spark-kafka-source...] Connection to node -1 could not be established. Broker may not be avai
如何在应用转换之前将每个火花输入流中的数据集组合为一个。我用的是火花-2.0.0
val ssc = new StreamingContext(sc, Seconds(2))
val sqlContext = new SQLContext(sc)
val lines = ssc.textFileStream("input")
lines.foreachRDD { rdd =>
val count = rdd.count()
if (count > 0) {
val dataSet = sqlContext.read.json(rdd)
这是我得到的错误:
java.lang.ExceptionInInitializerError
at org.apache.spark.streaming.dstream.InputDStream.<init>(InputDStream.scala:78)
at org.apache.spark.streaming.kafka010.DirectKafkaInputDStream.<init>(DirectKafkaInputDStream.scala:62)
at org.apache.spark.streaming.kafka010.Kafk
我是spark streaming和kafka的新手,我不理解这个运行时异常。我已经设置好kafka服务器了。
Exception in thread "JobGenerator" java.lang.NoSuchMethodError: org.apache.spark.streaming.scheduler.InputInfoTracker.reportInfo(Lorg/apache/spark/streaming/Time;Lorg/apache/spark/streaming/scheduler/StreamInputInfo;)V
at org.apache
在我们的项目中,我使用结构化流+ Kafka进行实时数据分析。我用的是火花2.2,卡夫卡0.10.2。
在应用程序启动时,在从检查点恢复流查询时,我面临一个问题。由于有来自单个kafka流点的多个流查询,而且每个流查询都有不同的校验点目录。因此,在作业失败的情况下,当我们重新启动作业时,会有一些流查询无法从检查点位置恢复,从而抛出读取增量文件的错误异常。以下是日志:
Job aborted due to stage failure: Task 2 in stage 13.0 failed 4 times, most recent failure: Lost task 2.3 in stage