使用spark结构流的累积计数

Spark结构化流（Structured Streaming）是Apache Spark中用于处理连续流数据的一种高级API。它可以以类似于批处理的方式处理实时数据流，并将其转化为一系列无限增长的小批量数据集，从而简化了实时数据处理的开发过程。

累积计数是一种统计功能，用于计算数据流中某个特定值的出现次数。在Spark结构化流中，可以通过使用groupBy和count操作来实现累积计数。

使用Spark结构化流的累积计数的步骤如下：

导入必要的Spark依赖和库。

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

创建一个SparkSession对象。

val spark = SparkSession.builder
  .appName("StructuredStreamingExample")
  .master("local[*]")
  .getOrCreate()

创建一个输入流，可以从Kafka、文件、TCP套接字等多种数据源读取数据。

val inputDF = spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "localhost:9092")
  .option("subscribe", "topic")
  .load()

解析和转换输入数据，将其转化为结构化的数据流。

val parsedDF = inputDF.selectExpr("CAST(value AS STRING)")
  .as[String]
  .flatMap(_.split(" "))
  .toDF("word")

使用groupBy和count操作进行累积计数。

val wordCounts = parsedDF.groupBy("word").count()

创建一个输出流，将计算结果写入指定的目标，如控制台、文件、数据库等。

val query = wordCounts.writeStream
  .outputMode("complete")
  .format("console")
  .start()

query.awaitTermination()

在这个示例中，我们通过从Kafka读取数据，并对数据中的单词进行累积计数。通过使用groupBy和count操作，我们可以得到每个单词的出现次数。最后，我们将计算结果输出到控制台。

推荐的腾讯云相关产品是TencentDB for Apache Spark（https://cloud.tencent.com/product/spark），它是一种高性能、低成本的Spark数据库服务，提供了可扩展的分布式计算能力和内置的大数据生态系统支持。

注意：本回答仅提供了Spark结构化流的累积计数的基本概念和示例，实际使用时可能需要根据具体情况进行调整和扩展。

页面内容是否对你有帮助？

有帮助

没帮助

使用spark streaming从流数据构建图形

、

我是spark的新手。我需要从像twitter tweet这样的流数据中构建一个共现图(在tweet中，-words将成为节点，如果单词来自同一tweet，我们会在它们之间添加一条边)。我们可以使用spark streaming来构建一个实时的共现twitter图吗？spark streaming是否适用于此用例？我不确定是否可以使用spark streaming来完成。如果不是，还有其他选择吗？

浏览 1提问于2015-06-04得票数 6

1回答

为什么流数据集会出现foreachPartition错误？

、、

我正在从Spark流迁移到结构化流，并且我面临以下代码的问题： def processDataSet(inputDataset: Dataset[MyMessage], foobar: FooBar) = { inputDataset.foreachPartition { partitionIterator => val filteredIterator = partitionIterator.filter(foobar.filter) ... ... } } val streamingQuery = inputDatas

浏览 3提问于2017-07-06得票数 2

回答已采纳

1回答

火花放电结构的DataFrame长度

、、

我在想，是否有一种方法可以知道结构化流线中火花放电数据的长度？实际上，我从kafka读取数据，并寻找一种方法来了解结果数据的大小，因为我在不同的步骤上对其进行了不同的筛选。我在时间戳列上使用groupby计算每个窗口的df大小或长度，如下所示： sqlFunctions.window(col("etimestamp"), "30 seconds", "30 seconds") 能得到我想要的。但我觉得奇怪的是，我们应该这样做(主要的需要)。此外，如果我的主要需求是使用另一列，这意味着我首先应该按该列进行groupby，然后在结果dataframe

浏览 5提问于2021-11-23得票数 0

回答已采纳

2回答

有没有一个很好的方法来加入spark中的流和变更表？

、

我们的Spark环境:Apache4.2(包括DataBricks Spark 2.3.1，Scala2.11) 我们试图实现的目标:我们希望用一些参考数据来丰富流数据，这些参考数据会定期更新。丰富是通过将流与参考数据连接起来完成的。实现内容:我们实现了两个spark作业(jars)：第一个是每小时更新一次Spark表TEST_TABLE (让我们称之为“参考数据”)，方法是使用 <dataset>.write.mode(SaveMode.Overwrite).saveAsTable("TEST_TABLE") 然后给spark.catalog.refreshTa

浏览 1提问于2018-08-23得票数 6

回答已采纳

1回答

星星之火:使用聚合函数计算RDD中特定字母的数量。

、、

我正在使用Python在Apache中执行一个简单的任务。假设我有一个RDD： [('python', 1), ('spark', 1), ('context', 1), ('create', 1), ('scala', 1), ('parallel', 1), ('operation', 1), ('apache', 1), ('partition', 1), ('lambda', 1), ('class', 1),

浏览 1提问于2018-06-23得票数 0

回答已采纳

1回答

将星火结构流DataFrames转换为Pandas DataFrame

、、、、

我有一个Streaming设置，它消耗了一个Kafka主题，我需要使用一些使用的App，但是当我试图转换它时，我得到了以下内容 : org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start();; kafka at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.org$apache$spark$sql$catalyst$anal

浏览 1提问于2019-03-05得票数 3

回答已采纳

2回答

必须使用writeStream.start()；执行流源查询；

、、、、

我试图从卡夫卡读取数据使用火花结构化流和预测形式的传入数据。我用的是我用Spark训练的模型。 val spark = SparkSession .builder() .appName("Spark SQL basic example") .master("local") .getOrCreate() import spark.implicits._ val toString = udf((payload: Array[Byte]) => new String(payload)) val sentenceDataFrame = spark

浏览 7提问于2017-10-03得票数 2

回答已采纳

1回答

如何将流数据从spark接收到Mongodb？

、、

我正在使用pyspark读取Kafka的流数据，然后我想将这些数据汇到mongodb。我已经包含了所有必需的包，但是它会引发以下错误 UnsupportedOperationException:数据源com.mongodb.spark.sql.DefaultSource不支持流写入。以下链接与我的问题无关下面是完整的错误堆栈跟踪回溯(最近一次调用)：.option("com.mongodb.spark.sql.DefaultSource"，“mongodb://localhost:27017/twitter.test”中的文件“/home/b3ds/kafka-sc

浏览 4提问于2018-06-04得票数 2

1回答

为什么"java.lang.ClassNotFoundException:未能找到数据源: kinesis“与火花流驱动-asl依赖？

、、、

我的设置： scala:2.11.8 spark:2.3.0.cloudera4 我已经在我的.pom文件中添加了以下内容： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kinesis-asl_2.11</artifactId> <version>2.3.0</version> </dependency> 然而，当我运行我的星火流代码来使用来自kinesis的数据时，它会

浏览 2提问于2018-11-29得票数 2

回答已采纳

2回答

Spark Streaming -基于时间戳字段的处理

、、

我是spark streaming的新手，我需要一些基本的澄清，因为我不能完全理解阅读文档。用例是，我有一组包含转储事件的文件，每个事件都有一个字段时间戳。目前，我正在加载这个文件并提取JavaRDD中的所有事件，我想将它们传递给Spark Streaming，以便根据时间戳收集一些统计数据(类似于重放)。我的问题是，是否可以使用事件时间戳作为时间参考来处理这些事件，而不是机器的实际时间(对于这个愚蠢的问题，很抱歉)。在可能的情况下，我是需要简单的spark流，还是需要切换到结构化流？我在这里发现了一个类似的问题：提前感谢

浏览 1提问于2017-02-14得票数 2

1回答

阿帕奇火花与卡夫卡流-失踪的卡夫卡

、、、

我试着用kafka来设置Apache，并用本地语言编写了简单的程序，它失败了，无法从调试中找到答案。 build.gradle.kts implementation ("org.jetbrains.kotlin:kotlin-stdlib:1.4.0") implementation ("org.jetbrains.kotlinx.spark:kotlin-spark-api-3.0.0_2.12:1.0.0-preview1") compileOnly("org.apache.spark:spark-sql_2.12:3.0.0") imple

浏览 11提问于2021-12-26得票数 1

1回答

如何从SocketTCP获取数据以保存到Scala中的数据？

、、

--我尝试从Socket获取数据以附加到dataframe --我接收了数据并将其执行到Seq()中，但是当我使用forEach将它们附加到dataframe时，有一个问题--这是我的代码： object CustomReceiver { def main(args: Array[String]): Unit = { StreamingExamples.setStreamingLogLevels() // Create the context with a 1 second batch size val spark: SparkSession = SparkS

浏览 2提问于2021-06-21得票数 0

回答已采纳

2回答

如何摆脱org.apache.kafka.clients.consumer.KafkaConsumer.subscribe :火花流+卡夫卡中的NoSuchMethodError错误

、、、、

我想使用星火流，并连接它与卡夫卡。然而，我仍然得到了NoSuchMethodError: NoSuchMethodError错误，现在我只是不知道下一步该做什么。我的设置： Ubuntu 16.04 Scala 2.11 Kafka 2.11-1.0.0 (我也尝试使用2.11-0.10.0.0) 火花2.2.1 Hadoop 2.9.0 我甚至不能运行示例脚本： from pyspark.sql import SparkSession, Row, SQLContext from pyspark import SparkContext, SparkConf from pyspark.stre

浏览 1提问于2018-02-09得票数 3

1回答

星火结构流w/文件源和文件库中的错误

、、

我的团队现在正在进入结构化流的领域。我对结构化流媒体相对来说是个新手。我有个要求来源- CSV 接收器- JSON 环境规划署详情：组群: Spark 2.2.1 编程语言: Scala 构建工具:分级范围：我已经实现了这个简单的代码 val schema = StructType( Array(StructField("customer_id", StringType), StructField("name", StringType), StructField("pid", StringType

浏览 0提问于2018-06-11得票数 1

1回答

如何解决阶段20.0 (TID 20)任务0.0中的错误执行器异常？

、、、、

--我知道类似的问题已经得到了简短的回答，但由于缺乏最低限度的reputation...hence，我无法在此补充我个人的怀疑--我在这里问它-- 我想使用Apache + Kafka来处理Twitter数据。我为此创造了一个模式。但是当我运行它时，我会得到以下错误。我搜索了很多关于这个错误的地方，但是我无法得到我想要的解决方案，或者它没有工作。上一次我用较小的内存空间运行Spark时，我认为内存不足，但我仍然会遇到同样的错误。这是我收到错误的代码： from kafka import KafkaConsumer from pyspark.streaming import StreamingC

浏览 2提问于2019-12-29得票数 2

回答已采纳

2回答

为什么结构化流在"java.lang.IncompatibleClassChangeError: Implementing“中失败？

、、

我想使用结构化流和PySpark一起运行Spark应用程序。我使用星火2.2和卡夫卡0.10版本。如果出现以下错误，我将失败： java.lang.IncompatibleClassChangeError:实现类 spark-submit命令，如下所示： /bin/spark-submit \ --packages org.apache.spark:spark-streaming-kafka-0-10_2.11:2.2.0 \ --master local[*] \ /home/umar/structured_streaming.py localhost:2181 fo

浏览 5提问于2017-08-22得票数 3

1回答

如何将火花数据写入动态流？

、、、、

我正在创建一个Dataframe从一个卡夫卡主题使用火花流。我想把“Dataframe”写成一位动作制作人。据我所知，目前还没有官方的API。但互联网上有多种API，但遗憾的是，它们都不适合我。火花版本: 2.2 Scala : 2.11 我尝试使用并构建jar。但是由于这个jar和spark之间的包名相互冲突而导致的错误。请帮帮忙。 ###########这里是其他人的代码： spark-shell --jars spark-sql-kinesis_2.11-2.2.0.jar,spark-sql-kafka-0-10_2.11-2.1.0.jar,spark-streaming-kafka

浏览 0提问于2019-07-08得票数 2

回答已采纳

4回答

Spark Structured Streaming -比较两个流

、

我使用的是Kafka和Spark 2.1结构化流媒体。我有两个主题和json格式的数据，例如： topic 1: {"id":"1","name":"tom"} {"id":"2","name":"mark"} topic 2: {"name":"tom","age":"25"} {"name":"mark","age:"35"} 我需要根据t

浏览 1提问于2017-06-09得票数 1

1回答

结构化流Kafka 2.1->齐柏林飞艇0.8->星火2.4:火花不使用jar

、、、、

我有一个Kafka2.1消息代理，希望对Spark2.4中的消息数据进行一些处理。我想用齐柏林飞艇0.8.1笔记本进行快速原型。我下载了结构化流()所必需的星火流-kafka-0-10_2.11.jar，并将其作为“依赖-工件”添加到齐柏林飞艇( Zeppelin )的“streaming”-interpreter(也处理%pyspark段落)中。我重新启动了这个解释器(还有齐柏林飞艇)。我还把罐子装进了笔记本的第一段(我首先认为这不应该是必要的.)： %dep z.load("/usr/local/analyse/jar/spark-streaming-kafka-0-10_2.

浏览 1提问于2019-07-19得票数 5

回答已采纳

1回答

即使在将"auto.offset.reset“设置为”最新“获取错误OffsetOutOfRangeException之后

、、、、

我使用星星之火-SQL2.4.1版本和Kafka 0.10 v。当我试图通过消费者来消费数据的时候。即使在将"auto.offset.reset“设置为”最新“之后，也会出现以下错误 org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {COMPANY_INBOUND-16=168} at org.apache.kafka.clients.consumer.interna

浏览 5提问于2019-11-01得票数 1

2回答

如何只在至少有N行时执行流处理？

、、、

我在一个Kafka使用者上有以下spark /Streaming，当批大小达到特定大小N时，如何指定获取应该是有条件的，否则使用者应该在处理之前缓冲元素，所以每当我想要执行我的逻辑时，都可以保证我有一个大小为N的Dataset<VideoEventData>： Dataset<VideoEventData> ds = spark .readStream() .format("kafka") .option("kafka.bootstrap.servers", prop.getProperty("

浏览 3提问于2017-11-27得票数 1

回答已采纳

1回答

用DataFrame实现火花状态流

、、

是否可以将DataFrame用作星火流的状态/ StateSpec？当前的StateSpec实现似乎只允许键值对数据结构(mapWithState等)。我的目标是保持一个固定大小的FIFO缓冲区作为一个StateSpec，每次新的数据流都会被更新。为了与Spark兼容，我想在Spark中实现缓冲区。

浏览 2提问于2018-02-22得票数 1

回答已采纳

2回答

inferSchema=true不适用于csv文件读取n火花结构化流

、、、

我收到了错误信息 java.lang.IllegalArgumentException: Schema must be specified when creating a streaming source DataFrame. If some files already exist in the directory, then depending on the file format you may be able to create a static DataFrame on that directory with 'spark.read.load(directory)' a

浏览 18提问于2021-10-17得票数 4

回答已采纳

1回答

是否有可能使用Spark与星火结构流的库？

、、、

我想对我从一个卡夫卡集群中获得的消息流执行tweet情绪分析，该集群反过来从Twitter v2中获取这些消息。当我尝试应用预先训练过的情感分析管道时，我会收到一条错误消息，上面写着：Exception: target must be either a spark DataFrame, a list of strings or a string，我想知道是否有办法解决这个问题。我已经检查了文档，在流数据上找不到任何东西。这是我使用的代码： import pyspark from pyspark.sql import SparkSession from pyspark.sql.functi

浏览 7提问于2022-03-23得票数 1

回答已采纳

3回答

如何在Spark结构化流上实现两个流之间的连接？- Java 8

、、

我知道，目前还不支持两个流之间的连接。但还是有办法的吗？还是我要等Spark2.2.0？谢谢

浏览 9提问于2017-04-20得票数 5

回答已采纳

1回答

Apache Bean Spark Runner无法在流模式下工作- java.lang.IllegalAccessException

我有一个在Flink上运行的流束应用程序。当我尝试用EMR (5.30.1)和apache bean (2.23.0和2.24.0)将它切换到spark runner时，我得到了以下错误： Exception in thread "main" java.lang.IllegalAccessException: Class org.apache.spark.sql.streaming.DataStreamReader can not access a member of class org.apache.beam.runners.spark.structuredstreamin

浏览 12提问于2020-10-15得票数 2

1回答

结构化流从kafka获取错误电流偏移量

、

当使用lib："org.apache.spark" %% "spark-sql-kafka-0-10" % "2.4.0"运行火花结构化流时，我们经常会收到当前偏移取的错误：由: org.apache.spark.SparkException:由于阶段失败导致作业中止:阶段0.0中的任务0失败4次，最近的失败:阶段0.0中丢失的任务0.3 (TID 3，qa2-hdp-4.acuityads.org，执行器2)：断言失败:最新的offs -9223372036854775808不等于-1在org.apache.spark.sql.kafka0

浏览 3提问于2019-01-24得票数 1

回答已采纳

1回答

Spark 2.1结构化流--使用Kakfa作为Python的源(pyspark)

、、、

对于ApacheSparkVersion2.1，我想使用Kafka (0.10.0.2.5)作为结构化流的源： kafka_app.py： from pyspark.sql import SparkSession spark=SparkSession.builder.appName("TestKakfa").getOrCreate() kafka=spark.readStream.format("kafka") \ .option("kafka.bootstrap.servers","localhost:6667") \ .o

浏览 4提问于2017-03-20得票数 2

回答已采纳

1回答

Rally API和Release Burnup数据

我在试着从API中提取释放燃耗数据。这有可能吗？如果是这样的话，是否有人这样做了，并且可以共享对象+查询参数？谢谢

浏览 0提问于2012-06-06得票数 0

回答已采纳

1回答

与RabbitMQ的Spark结构化流媒体集成

、、

我想使用Spark structured来聚合从RabbitMQ消费的数据。我知道与apache kafka有官方的spark结构化流媒体集成，我想知道是否也存在与RabbitMQ的集成？由于我不能切换现有的消息传递系统(RabbitMQ)，我想使用kafka-connect在消息传递系统(Rabbit to kafka)之间移动数据，然后使用Spark structured streaming。有人知道更好的解决方案吗？

浏览 0提问于2018-04-16得票数 0

1回答

火花结构化流与Neo4j

、

我的目标是使用Spark结构化流将转换后的数据从MongoDB集合写入Neo4j。根据Neo4j文档，这在"“版本4.1.2中是可能的。到目前为止，批处理查询工作正常。但是，通过下面的示例，我遇到了一条错误消息： spark-shell --packages org.mongodb.spark:mongo-spark-connector:10.0.2,org.neo4j:neo4j-connector-apache-spark_2.12:4.1.2_for_spark_3 val dfTxn = spark.readStream.format("mongodb") .

浏览 17提问于2022-06-27得票数 0

1回答

Spark结构化流中数据流数据的读取模式

、、、、

我是Apache结构化流的新手。我试图从事件集线器( XML格式)读取一些事件，并尝试从嵌套的XML创建新的Spark。我使用中描述的代码示例和批处理模式运行得很完美，但不是在结构化火花流中运行。星星之火的代码块-xml Github库 import com.databricks.spark.xml.functions.from_xml import com.databricks.spark.xml.schema_of_xml import spark.implicits._ val df = ... /// DataFrame with XML in column 'payloa

浏览 4提问于2021-01-21得票数 1

回答已采纳

2回答

spark.sql.adaptive.enabled是否适用于星火结构化流？

、、

我使用Apache结构化流。结构化流是建立在Spark引擎上的可伸缩和容错的流处理引擎。由于它构建在Spark引擎上，这是否意味着spark.sql.adaptive.enabled适用于火花结构化流？

浏览 7提问于2022-04-30得票数 -1

1回答

如何从Amazon加载流数据？

、、、

我使用Spark2.2.0。如何使用pyspark向Amazon流提供火花结构化流？问题试图通过创建自定义接收器来回答非结构化流和scala的问题。火花放电也有类似的可能吗？ spark.readStream \ .format("s3-sqs") \ .option("fileFormat", "json") \ .option("queueUrl", ...) \ .schema(...) \ .load() 根据的要求，接收机可以作为S3-SQS的文件源.不过，只有SQS才能采用一种方法。

浏览 3提问于2017-12-28得票数 15

回答已采纳

1回答

在卡夫卡星火流的情况下，spark.streaming.kafka.maxRatePerPartition和spark.streaming.backpressure.enabled有什么关系？

、、、、

我正在尝试将数据写入一个卡夫卡主题后，阅读了一个蜂巢表如下。 write_kafka_data.py: read_df = spark.sql("select * from db.table where some_column in ('ASIA', 'Europe')") final_df = read_df.select(F.to_json(F.struct(F.col("*"))).alias("value")) final_df.write.format("kafka")\

浏览 0提问于2021-09-13得票数 4

回答已采纳

1回答

无法从Spark2.2.0结构化流向Mongo写入数据？

、

我有以下代码，无法使用以下方法向Mongo写入数据。我甚至没有看到在MongoDB中填充数据库或集合名称。好像有什么不对劲。当我运行此代码时，没有任何例外。 private SparkSession sparkSession; SparkConf sparkConf = new SparkConf(); sparkConf.setMaster(Configuration.getConfig().getString("spark.master")); sparkConf.set("spark.mongodb.input.uri",

浏览 9提问于2017-09-12得票数 1

1回答

Spark Structured Streaming -无需重新读取数据的多个聚合

、

我正在研究将Apache Spark用于一个应用程序。我对使用临时视图和完整SQL查询的结构化流模式特别感兴趣(为了简单和低延迟)。应用程序将需要在单个输入数据流上运行多个(数十个，可能数百个)查询。有没有办法避免Spark重复读取每个查询的输入？

浏览 27提问于2021-01-20得票数 0

回答已采纳

1回答

数据库->雪花: SQL编译错误: Stage：'XYZ‘不能是管道定义中的临时阶段

、、、、

我试图将数据库中的流具体化到雪花表中： parsedStream .writeStream .outputMode(“追加”).options(选项) .option("dbtable“、"test_table") .option("streaming_stage”、"test_stage") .option("checkpointLocation“、”/dem-检查点“).format(”雪花“) .start() 选项包含对雪花进行身份验证所需的所有细节，此部分工作。我检查了预先创建的阶段和不存在的阶段，这样Databricks就可以

浏览 3提问于2019-11-07得票数 0

2回答

如何在start()之前执行操作？

、、

我正在开发一个火花流作业(使用结构化流，而不是使用DStreams)。我从kafka收到一条消息，其中将包含许多带有逗号分隔值的字段，其中第一列将是一个文件名。现在，基于该文件名，我将不得不从HDFS读取文件，并创建一个数据文件并在该文件上进一步操作。这似乎很简单，但是seems不允许我在调用start之前运行任何操作。火花文档也引用了同样的话。此外，还有一些Dataset方法无法在流数据集上工作。它们是将立即运行查询和返回结果的操作，这在流数据集中没有意义。下面是我尝试过的。 object StructuredStreamingExample { case class fil

浏览 3提问于2017-10-13得票数 1

2回答

PySpark的Cassandra Sink来自Kafka的结构化流主题

、、、、

我想使用PySpark结构流应用编程接口将结构流数据写入Cassandra。我的数据流如下： REST API -> Kafka ->火花结构流(PySpark) -> Cassandra 源代码和版本如下: Spark版本: 2.4.3 DataStax DSE: 6.7.6-1 初始化spark： spark = SparkSession.builder\ .master("local[*]")\ .appName("Analytics")\ .config("kafka.bootstrap.servers", "

浏览 23提问于2019-11-01得票数 2

1回答

Databricks以Snowflake为源的结构化流？

、、、、

是否可以使用Snowflake表作为Databricks中spark结构流的源？当我运行以下pyspark代码时： options = dict(sfUrl=our_snowflake_url, sfUser=user, sfPassword=password, sfDatabase=database, sfSchema=schema, sfWarehouse=warehouse) df = spark.readStream.format

浏览 10提问于2020-02-20得票数 0

2回答

星火结构流-将静态数据集与流数据集连接起来

、、、、

我使用Spark structured streaming处理从Kafka读取的记录。以下是我想要达到的目标： (a)每条记录都是Tuple2类型的(Timestamp, DeviceId)。 (b)我已经创建了一个静态的Dataset[DeviceId]，它包含了期望在Kafka流中看到的所有有效设备in (类型为DeviceId)的集合。 (c)我需要编写一个Spark structured streaming查询 (i) Groups records by their timestamp into 5-minute windows (ii) For each window, get

浏览 2提问于2017-10-02得票数 15

1回答

如何收集流数据集(到Scala值)？

、

如何将dataframe值存储到scala变量？我需要将从下面的dataframe (假设列“时间戳”产生相同的值)的值存储到一个变量，稍后我需要在某个地方使用这个变量。我已经试过了 val spark =SparkSession.builder().appName("micro"). enableHiveSupport().config("hive.exec.dynamic.partition", "true"). config("hive.exec.dynamic.partition.mode",

浏览 0提问于2019-01-08得票数 0

1回答

UnsupportedOperationException同时通过pyspark传输数据

、、、、

我使用这段简单的代码从目录中读取json文件流。代码在Databricks笔记本上工作得很好，但是在本地运行时会抛出一个错误。我使用databricks-connect (Version8.1)连接并通过集群运行脚本。 from pyspark.sql.types import StructType from pyspark.sql import SparkSession spark = SparkSession.builder.appName("ProcessSensorData").getOrCreate() userschema = StructType().add(

浏览 3提问于2021-04-21得票数 4

1回答

PySpark和Kafka: org.apache.spark.SparkException:未能在JAR中获得“文件文件.不存在”错误的主类

、、

我试图创建一个简单的星火结构化流媒体应用程序，我需要从卡夫卡读取流。但是，当我运行以下代码时： df = spark \ .readStream \ .format("kafka") \ .option("kafka.bootstrap.servers", "localhost:9092") \ .option("subscribe, "mytopic") \ .load() 然后我得到以下错误： AnalysisException: Failed to find data source: kafka. Please de

浏览 4提问于2021-09-16得票数 0

回答已采纳

2回答

火花应用程序不工作的动态资源分配

我是新来的火花，并试图了解如何动态资源分配工作。我有一个结构化的流媒体应用程序，它试图一次从Kafka读取数百万张唱片并处理它们。我的应用程序总是从3个执行者开始，从不增加执行者的数量。这需要5-10分钟才能完成。我认为它会增加执行者的数量(最多10个)，并试图更快地完成处理，这不是happening.What吗？这是怎么回事？我已经在安巴里为火场设置了下面的房产 spark.dynamicAllocation.enabled = true spark.dynamicAllocation.initialExecutors = 3 spark.dynamicAllocation.maxExe

浏览 0提问于2019-04-08得票数 0

回答已采纳

1回答

结构化流kafka星星之火java.lang.NoClassDefFoundError: org/apache/s火星/内部/日志记录

、、

我发现很多关于这个问题的常见问题，但没有用。我是java和bigdata的新手，java依赖关系管理非常糟糕，因为me.You必须猜测应该使用哪个包和版本，如果第三方库什么都不告诉您，哪个包会发生冲突。我想解析来自kafka主题的json数据并保存到hbase。主码 package com.yizhisec.bigdata; import com.yizhisec.bigdata.model.Traffic; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.ForeachWriter; import or

浏览 6提问于2019-11-17得票数 1

2回答

尝试理解spark streaming窗口

、

我正在研究Spark Streaming作为我正在构建的反欺诈服务的解决方案，但我正在努力弄清楚如何准确地将其应用到我的用例中。用例是:在为给定用户收集了10秒的数据之后，流式传输来自用户会话的数据，并计算该用户的风险分数。我计划使用2秒的批处理间隔时间，但需要使用完整的10秒窗口中的数据。起初，updateStateByKey()似乎是完美的解决方案，因为我可以使用系统收集的事件构建一个UserRisk对象。问题是，我不确定如何告诉Spark在10秒后停止更新用户，因为在10秒时，我对UserRisk对象运行推理引擎，并持久存储结果。另一种方法是窗口变换。窗口转换的问题是我必须手动删除重复数

浏览 2提问于2015-11-22得票数 0

1回答

使用阅读Kafka的Avro记录

、、、、

我正在使用 stream 2.3，并试图使用Dstreams (使用DStreams来获取特定的应用程序，而我们无法使用结构化流)从卡夫卡流中获取数据。 Kafka主题包含avro格式的数据。我希望使用Spark DStreams读取该数据，并将其解释为json字符串。我想做这样的事， val kafkaParams: Map[String, Object] = Map( "bootstrap.servers" -> "kafka-servers", "key.serializer" -> classOf[Strin

浏览 3提问于2022-11-23得票数 0

回答已采纳

1回答

使用SSL的PySpark和Kafka

、、

使用SSL连接到Kafka集群的Python (pyspark)的正确语法是什么？我有一个包含SSL的本地kafka集群(用于测试目的)。我能够将Scala与本地集群连接起来，但还不能连接PySpark。到目前为止，我有： kafkaBrokers = "localhost:9093" schemaRegistryUrl = "https://registry:8081/" inputTopic = "test.spark" df = spark.readStream.format("kafka").option("k

浏览 0提问于2018-04-19得票数 0