只能在流式数据集/数据帧上调用Spark :writeStream_org.apache.spark.sql.AnalysisException:流式数据帧/数据集上不支持非基于时间的窗口；；尽管存在基于时间的窗口 - 腾讯云开发者社区

scala、apache-spark、spark-streaming

正在尝试创建spark数据流writeStream函数的测试，如下所示：session").getOrCreate() val lakeDF = spark.createDF(List(("hi")), List(("word", StringType,t

浏览 0提问于2018-07-19得票数 8

1回答

只能在流式数据集/数据帧上调用Spark :writeStream

apache-spark、elasticsearch、pyspark、apache-kafka、spark-structured-streaming

我正在尝试从我的Kafka集群中检索tweet到Spark Streaming，在Spark Streaming中我执行一些分析，将它们存储在ElasticSearch索引中。Jupyter环境中运行以下代码，将流数据帧写入Elastic Search。df.withColumn("Sentiment",lit(udf_func(df.text))) df.writeStream.

浏览 82提问于2020-11-04得票数 2

2回答

如何将数据帧中的数据存储在变量中，以用作cassandra中select的参数？

apache-spark、cassandra、apache-spark-sql、spark-structured-streaming、spark-cassandra-connector

我有一个Spark结构的流媒体应用程序。应用程序从kafka接收数据，并且应该使用这些值作为参数来处理来自cassandra数据库的数据。我的问题是，我如何使用输入数据帧(kafka)中的数据，作为cassandra中的"where“参数"select”，而不会出现以下错误： Exception in thread "main" org.apache.spark.sql.AnalysisException:

浏览 25提问于2021-05-24得票数 0

回答已采纳

1回答

如何使用writeStream将火花流传递给卡夫卡主题

apache-kafka、spark-streaming、spark-structured-streaming

kafka.bootstrap.servers", "host1:port1,host2:port2") .start()我已经做了: 1.从twitter

浏览 2提问于2019-11-13得票数 1

回答已采纳

2回答

向流式数据帧添加ROW_NUMBER列

sql、apache-spark-sql、sql-order-by、spark-streaming、row-number

我是Spark和SQL的新手。我正在尝试向我的df中添加一列(然后将其保存到Delta表中)，该列为每条记录/行提供唯一的id，并在每次更新特定记录时递增该列。

浏览 1提问于2020-08-19得票数 3

4回答

如何在结构化流式传输中将数据帧转换为rdds？

apache-spark、spark-streaming

我使用pyspark流从kafka获取数据，结果是一个dataframe，当我将dataframe转换为rdd时，它出错了： Traceback (most recent call last):df = df.rdd.map(lambda x: x.value.split(" ")).toDF()pyspark.sql.utils.Analys

浏览 56提问于2020-01-06得票数 3

1回答

旋转一个流数据帧pyspark

scala、apache-spark、pyspark、pivot、streaming

我有一个来自kafka的流式数据帧，我需要旋转两列。.pivot('Var')\ .writeStream.format("memory") \ .start() <em

浏览 16提问于2021-07-14得票数 1

回答已采纳

1回答

用火花流将数据加载到azure数据库中

pyspark、spark-streaming、azure-blob-storage、databricks、azure-databricks

我正在Azure数据库中尝试这段代码：df = spark.readStream.format("eventhubswindow(df.enqueuedTime, "1 hour&

浏览 1提问于2020-05-13得票数 0

1回答

如何在spark流作业中查找数据帧的大小

python、scala、apache-spark、spark-structured-streaming

我正在尝试在每批spark streaming作业中查找数据帧的大小。我能够成功地在批处理作业中找到大小，但当涉及到流时，我无法做到这一点。我一直在数据库上开发spark应用程序，并尝试在流式作业中使用'df.queryExecution.optimizedPlan.stats.sizeInBytes‘。但我得到了以下异常:对流来源的查询必须使用writeStream.start();；我尝试过将'df.queryExecutio

浏览 26提问于2019-01-18得票数 0

2回答

消除流DataFrame中的重复项(重复数据消除)

scala、apache-spark、apache-spark-sql、spark-structured-streaming、delta-lake

我有一个Spark流媒体处理器。数据帧dfNewExceptions有重复项(由“ExceptionId”复制)。由于这是一个流数据集，因此以下查询失败： val dfNewUniqueExceptions = dfNewExceptions.sort(desc("LastUpdateTime"))dfNewExceptionCore = dfNewUniqueExceptions.select("ExceptionId", "LastUpdateTime

浏览 7提问于2021-09-30得票数 1

2回答

如何在结构化流中创建列的所有值的列表？

scala、apache-spark、elasticsearch、spark-structured-streaming

我通过spark的readStream方法获得所有这些记录。这个dataframe有一个名为"key“的列。我需要字符串(set(该列‘ElasticSearch’中的所有值))才能在查询中使用这个字符串。编辑:数据名：| key| ex|new column| +-------+--

浏览 0提问于2019-08-30得票数 4

1回答

当一个数据集涉及聚合时如何连接两个流数据集

scala、apache-spark、apache-spark-sql、spark-streaming、spark-structured-streaming

我在下面的代码片段中出现了错误-.add("org",StringType).add("booked_at",TimestampType) 创建流源<em

浏览 3提问于2020-02-18得票数 0

1回答

将流数据集追加到Spark中的批处理数据集

apache-spark、apache-spark-sql、apache-spark-2.0、spark-structured-streaming

我们在Spark中有一个用例，我们希望将历史数据从数据库加载到Spark，并不断向Spark添加新的流数据，然后我们可以对整个最新数据集进行分析。据我所知，Spark SQL和Spark Streaming都不能将历史数据与流数据结合起来。然后我发现Spark 2.0中的结构化流媒体似乎就是为这个问题而构建的。但经过一番试验，我还是搞不明白。data source

浏览 0提问于2016-10-03得票数 3

1回答

Spark Structured来自Cassandra

apache-spark、cassandra

我使用结构化数据流从Kafka流式传输数据 .readStream .option("kafka.bootstrap.servers]("analytics", "nlp2", SomeColumns("url", "ner", "sentiment"), SomeColumns("url&qu

浏览 0提问于2018-11-16得票数 1

1回答

Spark dataframe访问Kafka源后失去流媒体能力

apache-spark、pyspark、apache-kafka、apache-spark-sql、spark-streaming

我使用Spark 2.4.3和Kafka 2.3.0。我想用从Kafka到Spark的数据做Spark结构化流媒体。一般来说，它可以在测试模式下工作，但由于我必须对数据进行一些处理(并且不知道另一种方法)，Spark数据帧不再具有流式传输功能。 #!STRING)") # Do query on the converte

浏览 22提问于2019-09-10得票数 0

回答已采纳

1回答

如何从Kafka访问记录中的文件路径并从创建数据集？

java、apache-spark、apache-kafka、spark-structured-streaming

我正在接收Kafka消息上的文件路径。我需要将这个文件加载到spark RDD中，对其进行处理，然后将其转储到HDFS。我不能在Kafka消息数据集上运行map函数。由于sparkContext在worker上不可用，因此出现NPE错误。我不能在Kafka消息数据集上运行for

浏览 0提问于2017-09-26得票数 4

1回答

在Spark结构化流中指定"basePath“选项

java、apache-spark、spark-streaming

在Spark Structured Streaming (Java语言)中读取分区数据时，是否可以设置basePath选项？我只想加载特定分区中的数据，比如basepath/x=1/，但我还希望将x作为列加载。我为非流式数据帧设置basePath的方式似乎不起作用。+---+---++---+---+| 3| 4

浏览 56提问于2018-03-01得票数 6

1回答