结构化火花流抛出java.lang.NoSuchMethodError: org.apache.spark.sql.SQLContext.internalCreateDataFrame_如何使用结构化火花流批量向kafka发送拼花？ - 腾讯云开发者社区

apache-spark、apache-spark-sql、spark-streaming、spark-structured-streaming

什么是需要重新划分数据。如何确定火花中的重新分区大小。是适用于火花流和结构化流的重新划分概念。 DF.repartition(num)

浏览 1提问于2020-05-05得票数 0

回答已采纳

1回答

如何从Amazon加载流数据？

apache-spark、amazon-sqs、pyspark-sql、spark-structured-streaming

我使用Spark2.2.0。如何使用pyspark向Amazon流提供火花结构化流？问题试图通过创建自定义接收器来回答非结构化流和scala的问题。火花放电也有类似的可能吗？ spark.readStream \ .format("s3-sqs") \ .option("fileFormat", "json") \ .option("queueUrl", ...) \ .schema(...) \ .load() 根据的要求，接收机可以作为S3-SQS的文件源.不过，只有SQS才能采用一种方法。

浏览 3提问于2017-12-28得票数 15

回答已采纳

1回答

如何将流查询结果保存为PDF / XLSX (用于生成报表)？

apache-spark、apache-spark-sql、spark-structured-streaming

想知道我们是否可以生成PDF或XLSX文件，以便使用火花流/火花结构化流来报告。根据正式文档，有文件库，但支持PDF和XLSX吗？如果是这样的话，我们可以利用它作为报告代吗？

浏览 5提问于2019-12-19得票数 1

回答已采纳

1回答

Spark 3.x与Python中Kafka的集成

apache-spark、pyspark、apache-kafka、spark-structured-streaming、spark-kafka-integration

带有火花流的Kafka抛出了一个错误： from pyspark.streaming.kafka import KafkaUtils ImportError: No module named kafka 我已经建立了一个卡夫卡经纪人和一个工作火花环境与一个主人和一个工人。 import os os.environ['PYSPARK_PYTHON'] = '/usr/bin/python2.7' import findspark findspark.init('/usr/spark/spark-3.0.0-preview2-bin-hadoop2.7&#

浏览 2提问于2020-05-19得票数 4

回答已采纳

1回答

如何发送我的卡夫卡消费者数据火花？

python、apache-spark、pyspark、apache-kafka

假设我的制作人正在制作一些消息，而Kafka消费者正在使用这些消息。现在我要把这些信息发送出去。我如何用python将卡夫卡与火花连接起来，并将卡夫卡的信息发送给火花呢？

浏览 4提问于2022-05-12得票数 -2

1回答

如何访问流查询的度量？

apache-spark、spark-structured-streaming

我用的是火花2.4。我正在将星火流应用程序迁移到结构化流。我正在为每个批处理进行生成度量，并且我希望控制每个微批的统计数据。我对每个processingDelay、schedulingDelay和totalDelay指标以及在结构化流中找到它们的位置很感兴趣。我尝试了以下方法，但它不生成任何统计数据。 val recentBatchInfos = new StatsReportListener(60).batchInfos val numberOfRecords = recentBatchInfos.map(_.numRecords).sum 有人能告诉我们如何使用，拥有对统计数据的控制

浏览 0提问于2018-11-16得票数 4

回答已采纳

1回答

订阅方法在试图从kafka (0.10版本)访问kafka (0.90版本)时抛出错误

apache-kafka、subscribe、consumer

这是我们的开发环境。 1) kafka集群-版本为0.10 2)星团- 1.6，其中有0.9卡夫卡罐我们试图在星火集群模式下生成()和消费()。(通过火花提交) 运行火花提交作业时，火花选择0.9版本的卡夫卡。以下是我们的观察 1) Producer - works精细( 0.9 api和0.10 api生产者兼容) 2)使用KafkaUtils的卡夫卡消费者流- works精细(这里似乎也有0.9API和0.10 api生产者兼容) 3)消费者使用订阅( api )错误-错误与以下消息。有人能帮我们知道为什么失败吗？ 16/10/24 02:31:08错误yarn.Application

浏览 3提问于2016-10-24得票数 1

回答已采纳

2回答

结构化流是实时流处理引擎吗？

apache-spark、spark-streaming、apache-flink

我们知道Flink是一个真正的实时流处理引擎，它可以在记录到达时处理记录，我们也知道火花流是一个微批量流处理引擎。然而，我们也知道星星之火发布了结构化的流媒体，它怎么样？它是否也是一个真正的实时流处理引擎，就像Flink一样，它可以在记录到达时立即处理记录，而不是微批处理，或者仍然使用微批处理模式？

浏览 3提问于2017-06-27得票数 3

回答已采纳

1回答

Apache /Azure数据湖存储-精确处理文件一次，标记为已处理的文件

apache-spark、azure-data-lake、delta-lake

我有一个Azure数据湖存储容器，它充当由Apache处理JSON文件的着陆区。那里有数以万计的小文件(最多几MB)。火花代码定期读取这些文件，并执行一些转换。我希望文件被正确读取一次，而火花脚本是幂等的。如何确保文件不被一次又一次地读取？我怎样才能有效地做到这一点呢？我是这样看数据的： spark.read.json("/mnt/input_location/*.json") 我考虑了以下几种方法：创建一个带有已处理的文件名的Delta表，并在输入DataFrame上运行EXCEPT转换将处理的文件移动到不同的位置(或重命名它们)。我不想那样做。如果我需要重

浏览 2提问于2021-04-28得票数 3

回答已采纳

1回答

在oozie中使用单元上下文失败的火花作业

java、apache-spark、oozie、orc、hivecontext

在我们的一个管道中，我们使用spark(java)进行聚合，它是使用oozie编排的。此管道使用以下行将聚合数据写入ORC文件。 HiveContext hc = new HiveContext(sc); DataFrame modifiedFrame = hc.createDataFrame(aggregateddatainrdd, schema); modifiedFrame.write().format("org.apache.spark.sql.hive.orc").partitionBy("partition_column_name").save(o

浏览 0提问于2017-03-09得票数 0

回答已采纳

1回答

我们是如何管理火花结构化流中的抵消的？(与_spark_metadata有关的问题)

apache-spark、spark-streaming、spark-structured-streaming

背景：，我编写了一个简单的火花结构化蒸汽应用程序，可以将数据从卡夫卡转移到S3。发现为了准确地支持-一旦保证火花创建_spark_metadata文件夹，最终变得太大，当流式应用程序运行了很长时间，元数据文件夹变得如此大，我们开始得到OOM错误。我想摆脱星火结构化流的元数据和检查点文件夹，并自己管理偏移。我们如何管理火花流中的偏移：，我已经使用val offsetRanges = rdd.asInstanceOfHasOffsetRanges.offsetRanges来获得Spark结构化流中的偏移量。但想知道如何获得偏移和其他元数据来管理检查点，我们自己使用Spark结构化流。您有实现检查

浏览 2提问于2020-06-17得票数 1

回答已采纳

2回答

获取:导入火花模块时出错:没有名为“pyspark.streaming.kafka”的模块

apache-spark、pyspark、apache-kafka、spark-streaming

我有一个要求，把从火花放电脚本创建的日志推到kafka。我正在做POC，所以在windows机器上使用Kafka二进制文件。我的版本是- kafka - 2.4.0，火花- 3.0和python-3.8.1。我用的是吡喃编辑器。 import sys import logging from datetime import datetime try: from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.streaming.kafka im

浏览 3提问于2020-02-12得票数 3

回答已采纳

2回答

我们能用Kstream和火花流一起使用吗？

apache-spark、apache-kafka、spark-streaming、apache-kafka-streams

我们能用Kstream和火花吗？这是一种推荐的方法，还是使用火花流是一个更好的解决方案？

浏览 1提问于2021-10-18得票数 0

回答已采纳

1回答

可以在进行火花流时移动输出文件，而不破坏火花作业吗？

apache-spark、hdfs、streaming、spark-streaming

我有一个结构化的流星火作业运行与卡夫卡为来源，输出orc文件的附加模式。当作业运行时，我每隔一次将文件(想要)移动到hdfs位置。通过移动文件，火花作业会不会崩溃或产生错误的输出结果？一旦星星之火写入文件，它是否会以任何理由再次查看该文件？我想执行文件移动，但我不想破坏任何方式的火花。

浏览 3提问于2019-12-01得票数 0

回答已采纳

1回答

如何从另一个火花作业(B)查询火花作业(A)中的持久化数据

apache-spark、spark-streaming

有两个火花流作业运行在不同的容器-让我们称之为教师的工作和学生的工作。两者都是从两个不同的卡夫卡主题阅读。当学生消息进入学生火花作业时，我需要“查询”教师职务的持久化数据，以检索与该学生相关的教师(在本例中，学生只有一名教师，但教师可以有多名学生)。我如何在教师工作中坚持一个键值对(或教师数据框架)，然后在学生工作中检索/查找该教师，这样我就可以处理那个知道是老师的学生了？我是否可以在一个作业中使用持久化()而在另一个作业中使用非持久化()？

浏览 1提问于2019-03-30得票数 1

回答已采纳

1回答

Apache Kafka(v2.4.0) - Spark (v2.4.4)在Python中的流集成

python、apache-spark、apache-kafka、spark-structured-streaming

因此，我在不同的ubuntu机器上安装了ApacheSpark2.4.4 Kafka_2.12-2.4.0和。我想从诸如IOT设备上获取所有数据，输入卡夫卡，然后使用火花流，进入火花。我想用蟒蛇来做这一切。根据这个链接：，因为我的Kafka版本超过0.10，所以我不能使用python，因为没有为python显示的示例。是这种情况吗？或者是否有可能只使用python进行集成？

浏览 1提问于2020-01-27得票数 0

回答已采纳

1回答

在HDP 2.2上运行火花流作业时的NoSuchMethodError

scala、apache-spark、hortonworks-data-platform、spark-streaming

我试图在HDP 2.2沙箱上运行一个简单的流作业，但面临java.lang.NoSuchMethodError错误。我能够在这台机器上运行SparkPi示例，没有任何问题。以下是我使用的版本- <kafka.version>0.8.2.0</kafka.version> <twitter4j.version>4.0.2</twitter4j.version> <spark-version>1.2.1</spark-version> <scala.version>2.11<

浏览 1提问于2015-02-12得票数 3

1回答

显示Spark结构化流作业使用的事件数

apache-spark、spark-structured-streaming

我有2个线性火花结构化流式作业，从一个卡夫卡主题复制数据到另一个。是否可以在Spark UI中发布/查看消费/产生的事件数量？

浏览 13提问于2020-04-15得票数 1

回答已采纳

1回答

如何在静态数据集上运行流查询？

apache-spark、apache-spark-sql、spark-structured-streaming

当我将结构化流应用于静态数据集时，火花引擎将得到静态数据集的全部数据。在这种情况下，使用流处理静态数据集意味着什么？我所期望的是结构化流能够一次获得整个数据集的一部分，然后我在数据集中的这一部分上计算它，直到整个数据集被遍历。否则，使用结构化流和spark SQL处理静态数据集是完全相同的。对静态数据集使用结构化流的原因是静态数据集可能很大。我们希望使用结构化流来防止静态数据集上的数据一次性加载到内存中(因此内存非常紧张)。这是否违反了流处理的思想？使用结构化流和火花SQL处理静态数据集有什么区别？

浏览 4提问于2019-11-15得票数 2

回答已采纳

1回答

流CDC变化与Kafka和火花仍然是分批处理，而我们希望处理每一个记录。

postgresql、apache-spark、apache-kafka

我还是新来的火花，我想了解更多关于它。我想用卡夫卡构建和数据管道架构，Spark.Here是我提议的体系结构，PostgreSQL为卡夫卡提供数据。条件是PostgreSQL不是空的，我想捕捉数据库中的任何CDC更改。最后，我想抓住卡夫卡的信息，并处理它与火花，以便我可以得到分析，在同时发生的疾病预防控制中心事件。然而，当我试图运行一个简单的流时，似乎是星火接收到流中的数据，而是批量处理数据，这不是我的目标。我看到一些文章说，这个例子的数据源来自我们希望监视的API，而且数据库流处理的情况有限。我以前已经完成了使用Kafka到另一个数据库的过程，但是我需要转换和聚合这些数据(我不是使用Con

浏览 0提问于2020-06-24得票数 1

回答已采纳

1回答

如何在非实时地使用sql在蜂窝表上进行星火流？

apache-spark、hive、spark-streaming、spark-structured-streaming

我们有一些数据(数百万)在蜂箱表中，每天都有。第二天，一旦熬夜摄入完成，不同的应用程序就会查询我们的数据(使用sql)。我们使用这个sql并调用spark。 spark.sqlContext.sql(statement) // hive-metastore integration is enabled 这导致火花驱动程序占用过多内存，我们是否可以使用火花流(或结构化流)以管道方式流，而不是收集驱动程序上的所有内容，然后发送给客户端？我们不想(在典型的流应用程序中)立即发送数据，而是希望在客户要求(拉)数据时向客户发送流数据。

浏览 1提问于2020-07-12得票数 0

1回答

如何将加工后的火花流插入卡夫卡

apache-spark、pyspark、apache-kafka、spark-structured-streaming

正在尝试在使用下面的代码段进行处理后将火花流插入kafka query = ds1 \ .selectExpr("CAST(value AS STRING)")\ .writeStream\ .foreachBatch(do_something) \ .format("kafka") \ .option("topic","topic-name") \ .option("kafka.bootstrap.servers", "borkers-IPs") \

浏览 2提问于2021-02-01得票数 0

回答已采纳

1回答

阿克卡流与火花流

apache-spark、akka-stream

使用akka流与火花流进行流处理有什么优缺点？比如，内置背压，性能，容错，内置转换，灵活性等。我不是在问akka vs火花正反严格流组件。另外，我并不是在问引擎盖框架架构的差异。

浏览 1提问于2016-07-06得票数 9

回答已采纳

2回答

排列星河数据集列

scala、apache-spark-sql、spark-streaming、user-defined-functions

我正在使用Spark2.3.1的结构化流API。是否有可能在火花流数据的列中对值进行排序？我尝试使用下面的代码，然后在异常消息之后意识到流上下文不可能遍历整个窗口。 .withColumn("rank", row_number().over(Window.orderBy($"transactionTime"))) 抛出 org.apache.spark.sql.AnalysisException:流数据框架/数据集不支持非基于时间的窗口。有人能帮我计算等级/百分位吗？

浏览 0提问于2018-07-06得票数 4

回答已采纳

2回答

AWS在AWS EMR上与Spark2.1.0对齐错误？

amazon-web-services、apache-spark、emr、amazon-emr

我运行emr-5.3.1和星火2.1.0在AWS上。当我用JAR (FAT JAR)提交火花任务时，我得到以下错误： user类抛出异常: com.amazonaws.auth.DefaultAWSCredentialsProviderChain.getInstance()Lcom/amazonaws/auth/DefaultAWSCredentialsProviderChain；：java.lang.NoSuchMethodError 我只能猜测这是因为我使用不同的AWS版本构建了jar，然后安装在Spark2.1.0中。在EMR的Spark2.1.0上安装正确的AWS_SD

浏览 2提问于2017-04-24得票数 1

回答已采纳

2回答

如何摆脱org.apache.kafka.clients.consumer.KafkaConsumer.subscribe :火花流+卡夫卡中的NoSuchMethodError错误

python、apache-spark、pyspark、apache-kafka、spark-structured-streaming

我想使用星火流，并连接它与卡夫卡。然而，我仍然得到了NoSuchMethodError: NoSuchMethodError错误，现在我只是不知道下一步该做什么。我的设置： Ubuntu 16.04 Scala 2.11 Kafka 2.11-1.0.0 (我也尝试使用2.11-0.10.0.0) 火花2.2.1 Hadoop 2.9.0 我甚至不能运行示例脚本： from pyspark.sql import SparkSession, Row, SQLContext from pyspark import SparkContext, SparkConf from pyspark.stre

浏览 1提问于2018-02-09得票数 3

1回答

结构化流Kafka 2.1->齐柏林飞艇0.8->星火2.4:火花不使用jar

python、apache-spark、pyspark、apache-kafka、apache-zeppelin

我有一个Kafka2.1消息代理，希望对Spark2.4中的消息数据进行一些处理。我想用齐柏林飞艇0.8.1笔记本进行快速原型。我下载了结构化流()所必需的星火流-kafka-0-10_2.11.jar，并将其作为“依赖-工件”添加到齐柏林飞艇( Zeppelin )的“streaming”-interpreter(也处理%pyspark段落)中。我重新启动了这个解释器(还有齐柏林飞艇)。我还把罐子装进了笔记本的第一段(我首先认为这不应该是必要的.)： %dep z.load("/usr/local/analyse/jar/spark-streaming-kafka-0-10_2.

浏览 1提问于2019-07-19得票数 5

回答已采纳

1回答

分区是如何在星火流中工作的？

scala、apache-spark、spark-streaming、rdd、spark-streaming-kafka

我正在致力于提高火花流应用程序的性能。分区是如何在流环境中工作的。是否与将文件加载到spark中相同，还是一直以来它只创建一个分区，使其只在执行器的一个核心中工作？

浏览 0提问于2019-09-15得票数 4

回答已采纳

1回答

如果数据集是流数据集，则无法从Dataset<Row>转换为H2OFrame

apache-spark、h2o、sparkling-water、spark-structured-streaming

我已经有了一个深度学习模型，我正在尝试对流媒体数据进行评分。为此，我使用星火结构流api.When从kafka读取数据，我尝试将接收到的数据转换为H20Frame，下面是错误：线程“主”org.apache.spark.sql.AnalysisException中的异常:必须使用writeStream.start()执行流源查询；代码样本 Dataset<Row> testData=sparkSession.readStream().schema(testSchema).format("kafka").option("kafka.bootstra

浏览 0提问于2018-04-05得票数 1

2回答

火花应用程序不工作的动态资源分配

apache-spark

我是新来的火花，并试图了解如何动态资源分配工作。我有一个结构化的流媒体应用程序，它试图一次从Kafka读取数百万张唱片并处理它们。我的应用程序总是从3个执行者开始，从不增加执行者的数量。这需要5-10分钟才能完成。我认为它会增加执行者的数量(最多10个)，并试图更快地完成处理，这不是happening.What吗？这是怎么回事？我已经在安巴里为火场设置了下面的房产 spark.dynamicAllocation.enabled = true spark.dynamicAllocation.initialExecutors = 3 spark.dynamicAllocation.maxExe

浏览 0提问于2019-04-08得票数 0

回答已采纳

1回答

结构化流startingOffest和检查点

apache-spark、spark-structured-streaming、spark-kafka-integration

我对结构化流中的startingOffsets感到困惑。在正式文档中，它表示查询类型。流-这是连续流吗？批处理-这是用于查询forEachBatch还是触发器？(不允许最近一次) 我的工作流程也启用了checkpoints。如何与startingOffsets一起工作呢？如果我的工作流程崩溃，并且我有startingOffsets作为latest，那么火花检查卡夫卡偏移量还是火花检查点偏移量，还是两者都有？

浏览 4提问于2021-10-03得票数 1

回答已采纳

2回答

5分钟Spark批处理作业与流作业

apache-spark、spark-streaming

我正在试着找出什么是更好的方法。我有一个火花批处理作业，这是计划运行每5分钟，它需要2-3分钟来执行。由于已经添加了对动态分配spark.streaming.dynamicAllocation.enabled的支持，将其设置为每5分钟从源拉取数据的流式作业是一个好主意吗？在流/批处理作业之间进行选择时，我应该记住哪些事项？

浏览 0提问于2019-07-24得票数 0

3回答

控制文件的Spark流

apache-spark、spark-streaming、spark-dataframe

我使用Spark从文件夹中读取文本文件，并将它们加载到hive中。火花流的时间间隔为1分钟。在极少数情况下，源文件夹可能包含1000个较大的文件。我如何控制火花流，以限制程序读取的文件数量？目前我的程序正在读取过去1分钟内生成的所有文件。但我想控制它正在读取的文件数量。我使用的是textFileStream接口。 JavaDStream<String> lines = jssc.textFileStream("C:/Users/abcd/files/"); 有什么方法可以控制文件传输速率吗？

浏览 4提问于2017-02-28得票数 0

1回答

当您重新启动火花作业时，如果它在输入给kafka的数据中遇到了意外的格式，会发生什么？

apache-spark、apache-kafka、spark-structured-streaming

我有一个问题，关于星火结构化流与卡夫卡。假设我正在运行一个火花作业，而且每件事情都很完美。有一天，我的火花工作失败了，因为卡夫卡的数据不一致。不一致可能是数据格式问题或垃圾字符，而这些问题可能是无法处理的。在这种情况下，我们如何解决这个问题？有什么方法可以让我们进入卡夫卡主题并手动修改数据吗？如果我们不修复数据问题并重新启动星火作业，它将读取导致失败的老行，因为我们还没有提交检查点。那我们怎么摆脱这个循环呢。如何解决卡夫卡主题中的数据问题，以恢复中止的火花作业？

浏览 0提问于2020-05-12得票数 3

回答已采纳

2回答

如何在start()之前执行操作？

scala、apache-spark、spark-structured-streaming

我正在开发一个火花流作业(使用结构化流，而不是使用DStreams)。我从kafka收到一条消息，其中将包含许多带有逗号分隔值的字段，其中第一列将是一个文件名。现在，基于该文件名，我将不得不从HDFS读取文件，并创建一个数据文件并在该文件上进一步操作。这似乎很简单，但是seems不允许我在调用start之前运行任何操作。火花文档也引用了同样的话。此外，还有一些Dataset方法无法在流数据集上工作。它们是将立即运行查询和返回结果的操作，这在流数据集中没有意义。下面是我尝试过的。 object StructuredStreamingExample { case class fil

浏览 3提问于2017-10-13得票数 1

2回答

spark.sql.adaptive.enabled是否适用于星火结构化流？

apache-spark、apache-spark-sql、spark-structured-streaming

我使用Apache结构化流。结构化流是建立在Spark引擎上的可伸缩和容错的流处理引擎。由于它构建在Spark引擎上，这是否意味着spark.sql.adaptive.enabled适用于火花结构化流？

浏览 7提问于2022-04-30得票数 -1

1回答

火花结构化流无状态模式

apache-spark

是否可以在不保持状态的情况下使用Spark结构化流聚合？例如，如果我只对每一批中的单词进行计数，而不考虑以前的批次。我知道有一些像flatMapGroups和mapGroups这样的函数允许这样做，但是它似乎不是本地方法，它也有缺点。在火花中做这件事的标准是什么？我应该用DStream代替吗？

浏览 5提问于2017-11-06得票数 1

回答已采纳

1回答

火花结构化流检查点在生产中的使用

scala、apache-spark、apache-kafka、spark-structured-streaming、spark-kafka-integration

当使用Spark结构化流时，我难以理解检查点是如何工作的。我有一个火花处理程序，它生成一些事件，我将这些事件记录在一个Hive表中。对于这些事件，我收到卡夫卡流中的确认事件。我创造了一个新的火花过程将事件从Hive日志表中读取到DataFrame中使用Spark结构化流将这些事件与确认事件流连接起来将已连接的DataFrame写入HBase表。我在shell中测试了代码，它运行良好，低于伪代码(我使用的是Scala)。 val tableA = spark.table("tableA") val startingOffset = "ea

浏览 7提问于2020-07-08得票数 3

2回答

如何避免Lambda体系结构中的代码冗余？

apache-spark、hadoop、spark-streaming

我们有一个正在进行的批处理，如下所述。 Hive SQL用于每日批处理。数据被从文件或RDMBS中摄取数据是在Raw --> Staging -> Mart中摄取的，从暂存到mart是所有的业务转换，而对暂存的原始处理只是数据的清理和格式化。现在，作为获取真实或接近实时数据的一部分，我正在评估Lambda体系结构，这是什么计划？所有的源头系统都会落在卡夫卡身上。同一批处理系统将消耗卡夫卡主题。新的火花应用程序将消耗卡夫卡主题的流。服务层将创建视图，这些视图将流和批处理的聚合数据结合在一起进行真实(接近真实的)时间处理。的问

浏览 2提问于2018-09-18得票数 1

1回答

如何将流数据从spark接收到Mongodb？

mongodb、apache-spark、pyspark

我正在使用pyspark读取Kafka的流数据，然后我想将这些数据汇到mongodb。我已经包含了所有必需的包，但是它会引发以下错误 UnsupportedOperationException:数据源com.mongodb.spark.sql.DefaultSource不支持流写入。以下链接与我的问题无关下面是完整的错误堆栈跟踪回溯(最近一次调用)：.option("com.mongodb.spark.sql.DefaultSource"，“mongodb://localhost:27017/twitter.test”中的文件“/home/b3ds/kafka-sc

浏览 4提问于2018-06-04得票数 2

1回答

基于apache超级集的kappa体系结构

apache-spark、apache-kafka、apache-superset

在互联网上有很多关于kappa体系结构的信息，在浏览了一些概念方面之后，我试图深入到一些更具体的方面。作为我的主要来源，我使用了。让我们想象一下，您想要实现涉及以下技术堆栈的kappa体系结构：阿帕奇卡夫卡阿帕奇火花 Apache Superset 现在，假设您想要构建的应用程序具有一个PostgreSQL数据库。当然，您可以轻松地将apache与PostgresSQL数据库连接起来，并创建图表。但是现在你想看看你如何用卡帕架构来做这件事，你加入了卡夫卡和火花。您可以将事件发送给kafka，并且可以在中读取此类事件。卡夫卡将保留一个特定时期的信息，如的答案所指出的。

浏览 6提问于2022-06-21得票数 2

回答已采纳

2回答

火花结构化流: queryName()设置的可能用途是什么？

apache-spark、spark-structured-streaming

根据 queryName("myTableName")用于在输出接收器为format("memory")时定义内存中的表名。 aggDF .writeStream .queryName("aggregates") // this query name will be the table name .outputMode("complete") .format("memory") .start() spark.sql("select * from aggregates").sho

浏览 0提问于2019-08-21得票数 4

回答已采纳

3回答

星火流jdbc在数据出现时读取流-数据源jdbc不支持流读取。

postgresql、apache-spark、apache-kafka、spark-streaming

我正在使用PostGre作为数据库。我希望为每批获取一个表数据，并将其转换为拼花文件并存储到s3中。我试图使用spark和readStream的JDBC连接，如下所示. val jdbcDF = spark.readStream .format("jdbc") .option("url", "jdbc:postgresql://myserver:5432/mydatabase") .option("dbtable", "database.schema.table") .option(

浏览 1提问于2019-07-02得票数 5

1回答

如何在数据或数据摄取时间中按时间戳进行分组？

apache-spark、pyspark、spark-streaming

我可以看到，星火流窗口功能只基于“接收数据时”进行分组。我想根据数据本身中可用的时间戳字段进行分组。有可能吗？例如，数据创建时间戳作为1 PM数据的一部分可用。但是火花流在下午1.05就收到了数据。因此，它应该根据数据中可用的时间戳(1PM)进行分组。

浏览 0提问于2017-08-17得票数 1

1回答

处理最后n个记录中的电火花卡夫卡流

pyspark、apache-kafka、apache-spark-sql、spark-structured-streaming

我需要对不同商店的最后10万份记录(客户账单)进行一些操作，每5分钟一次。在吡火花结构化流中，我需要遵循的最佳方法或步骤是什么？输入源是Kafka。此外，我还必须逐步删除超过100 K记录的每家商店的旧记录，因为我只需要最近每一家商店100 K记录在任何时候。例如，我需要从商店'S1‘的最后100 k记录和存储'S2’的最后100 k记录中了解产品‘S2’的详细信息。

浏览 1提问于2022-02-06得票数 2

1回答

无法从databricks连接cosmos表api抛出错误

azure-databricks、azure-cosmosdb-tables

在集群级别加载正确的库。com.microsoft.azure:azure-cosmosdb-spark_2.4.0_2.11:3.7.0 从cosmos表api中提供正确的连接字符串。 cosmosConfig = { "Endpoint" : "https://cosmos-account-name.table.cosmos.azure.com:443/", "Masterkey" : "PrimaryKey", "Database" : "TablesDB", "

浏览 8提问于2022-07-20得票数 0

回答已采纳

1回答

星火(直接)流的自然替代品是星火结构化流还是卡夫卡流？

apache-spark、apache-kafka、spark-streaming、apache-kafka-streams、spark-structured-streaming

在过去几年中，我们开发了相当多的星火流(Direct )应用程序，这些应用程序正在我们的Cloudera平台上读取或写入Kafka、IBM、Hive、HBase、HDFS和其他应用程序。现在取消了Spark流的Direct (我们目前有2.3.2版本)，并且我们最近向我们的项目添加了汇合平台(附带了Kafka 2.2.0)，我们计划迁移这些应用程序。什么是我们的火花流应用程序的自然替代？我们应该迁移到火花结构化流，或者更确切地说是卡夫卡流吗？我个人对这两个框架没有任何经验，但在我看来，结构化流似乎是自然的选择。我们的代码库主要是用Scala编写的，它也可以用于结构化API。Kafka在Sc

浏览 4提问于2020-02-19得票数 0

回答已采纳

1回答

Kakfa的火花流

scala

我试图使用Kafka作为我的来源来做火花流，但是我得到了如下错误：线程"main“java.lang.NoSuchMethodError: java.lang.NoSuchMethodError中的异常我的Kafka版本是Kafka_2.11-0.11，我在Scala2.11中使用了Spark2.0.0。我无法在maven或任何地方找到上述兼容的jar。上面提到的jar版本较低，但没有上述配置。我使用SCALA和scala库运行代码，作为2.11.8。这段代码成功运行了一次，但不知道在重新运行后，代码会抛出上面的错误。如果你们都能分享你的想法并提供一些解决方案，这将是非常

浏览 6提问于2017-07-17得票数 0

1回答

默认(未指定的)触发器如何确定结构化流中微批的大小？

apache-spark、spark-structured-streaming

当Spark结构化流中的查询执行不设置触发器时， import org.apache.spark.sql.streaming.Trigger // Default trigger (runs micro-batch as soon as it can) df.writeStream .format("console") //.trigger(???) // <--- Trigger intentionally omitted ---- .start() 截至火花2.4.3 (2019年8月)。说如果没有显式指定触发器设置，那么默认情况下，查询将以微批处理

浏览 0提问于2019-08-22得票数 3

回答已采纳

1回答

是否自己创建了一个消费者组(因为它不关心应用程序中给出的group.id属性)

apache-spark、apache-kafka、spark-streaming、spark-streaming-kafka

让我们说，我刚刚推出了一个卡夫卡直接流+火花流应用程序。对于第一批，驱动程序中的流上下文连接到Kafka并获取startOffset和endOffset。然后，启动具有这些开始和结束偏移范围的火花作业，以便执行者从Kafka获取记录。我的问题从这里开始。当第二批的时间，流上下文连接到卡夫卡的开始和结束偏移范围。如果没有允许存储最后一次提交偏移值的使用者组(因为直接流没有考虑到group.id)，那么Kafka如何能够提供这些范围呢？

浏览 4提问于2020-02-27得票数 0

回答已采纳