如何使用spark批量加载kafka主题中的所有记录

文章/答案/技术大牛

发布

1回答

apache-spark、apache-kafka、apache-spark-sql、kafka-consumer-api

我想要加载所有的记录从kafka主题使用火花，但所有的例子，我已经看到使用火花流。我怎么才能加载消息fwom kafka一次？

浏览 14提问于2019-06-21得票数 1

回答已采纳

1回答

Kafka :将源从MySQL切换到Kafka

apache-kafka、kafka-consumer-api

来自MySQL和Kafka主题的事件数据。我们将从MySQL加载历史数据，然后切换到Kafka，以便当前的data.Mysql ID也会流入Kafka。因此，消息包含事件ID。Kafka流事件将使用spark作业进行处理，并最终将数据摄取到报表中。问题:如何加载历史数据并实时切换到Kafka源。 1-创建临时使用者组以存储所有分区的当前偏移量和

浏览 18提问于2020-01-23得票数 0

1回答

从writeStream读取到json文件，但在HDFS json文件中只找到一条消息。

json、apache-kafka、spark-structured-streaming

只需设置一个hadoop/kafka/星火，一个节点演示环境。奇怪的是，在hadoop "output/test“目录下，我可以找到一个创建的json文件，但只有一个消息。卡夫卡的所有新消息都不会更新json文件。但是我想把卡夫卡的所有信息都存储在一个json文件中。我尝试过控制台(writeStream.format(“控制台”)或kafak(writeStream.format("kafka&quo

浏览 2提问于2022-08-27得票数 0

1回答

Spark结构流批量查询

apache-spark、pyspark、spark-structured-streaming

我是第一次接触kafka和spark structured streaming。我想知道spark in batch模式是如何知道从哪个偏移量读取的？如果我指定"startingOffsets“为”最早的“，我只会得到最新的记录，而不是分区中的所有记录。我在两个不同的集群中运行了相同的代码。df = spark \ .read

浏览 0提问于2020-10-24得票数 0

1回答

如何在MySQL表中捕获新的插入

python、mysql

我想捕获提交到Python表中的新插入，并在MySQL中处理这些记录。例如:在一个"Order“表中，每次客户下订单时都会插入一条新记录。我想实时捕捉对Table所做的更改，并在Python中处理它，以便例如将此记录写入csv文件。要做到这一点，最佳的方法是什么？我在考虑每秒运行一个脚本，跟踪表的总计数，每当计数上升时，我就拉出最新的x行。但也许有一种更简单、更可靠的方法？干杯!

浏览 10提问于2021-07-28得票数 0

回答已采纳

2回答

使用pyspark批处理作业读取Kafka的最新记录

apache-spark、apache-kafka

我正在pyspark中执行一个批处理作业，其中spark将每5分钟读取一次kafka主题中的数据。df = spark \ .format("kafka") \ .test") \ .option("startingOffsets", &quo

浏览 2提问于2020-03-04得票数 0

1回答

如何比较两个spark streaming作业的性能？

scala、apache-spark、serialization、apache-kafka

我的spark工作是使用kafka主题中的数据并执行一些操作。区别在于序列化，一个是使用java序列化，另一个是使用kryo序列化。如何比较这两个流作业，因为它们在同一时间间隔内具有不同的每秒输入数量和不同的输入批量大小？

浏览 12提问于2019-12-04得票数 1

1回答

Spark Streaming job如何在Kafka主题上发送数据并保存在Elastic中

java、spring-boot、apache-spark、apache-kafka、spark-streaming

我正在做一个数据分析项目，在这个项目中，我从CSV文件中读取数据，在Kafka主题上遍历该文件，并使用Spark Streaming来使用该Kafka主题数据。我在一个单一的项目中使用的所有组件。现在，在使用Spark Streaming消费数据后，我必须对其进行一些计算，我必须将数据保存到elastic search中，并且我必须将该数据发送到另一个主题。，即在Elastic Search中保存数

浏览 0提问于2019-06-04得票数 0

1回答

如何通过REST API从数据库中流式传输数据？

database、apache-spark、apache-kafka、django-rest-framework、streaming

我有大量数据存储在Postres数据库中，我需要使用Django通过REST API将数据发送到客户端。要求是以块的形式发送数据，而不是一次性将整个内容加载到内存中。但是有没有其他更好的选择呢？我听说过Kafka和Spark的流媒体应用程序，但我检查过的这两个教程往往涉及流媒体实时数据，如与Twitter数据交互等。但是，使用这两个应用程序中的任何一个可以从数据库中流式传输数据吗？如果是，那么我如何

浏览 25提问于2019-06-16得票数 0

1回答

单记录kafka消费者和kafka批量消费者的基本区别是什么？

spring-kafka

我正在使用spring-kafka 2.2.8，试图理解单个记录消费者和批量消费者之间的主要区别是什么。据我所知，从一个主题中读取消息/字节对于单个记录消费者和批量消费者来说没有什么不同。唯一的区别是如何提交偏移量。并因此进行错误处理。我的理解正确吗？请确认。

浏览 170提问于2020-10-17得票数 0

回答已采纳

1回答

如何从Kafka Topic中获取记录总数并保存到HDFS中？

java、apache-spark、hadoop、apache-kafka、spark-streaming-kafka

全,Dataset ds1=ds.filter(args[5]);

浏览 4提问于2020-05-22得票数 1

1回答

kafka max.poll.records不适用于火花流。

apache-spark、apache-kafka、spark-streaming、kafka-consumer-api

我的火花流版本是2.0，kafka版本是0.10.0.1，火花流-kafka-0-10_2.11。我使用直接的方式获得卡夫卡的记录，我现在想限制我在一批中获得的信息的最大数量。星星之火中的消费者数量是卡夫卡中的分区数?那么火花流中记录的最大数量是max.poll.records*consumers？

浏览 1提问于2018-09-27得票数 2

1回答

kSQLDB声明密钥字段在流或表上创建随机密钥

apache-kafka、ksqldb

我正在使用kSQLDB并从一个主题创建一个流，当我显式声明一个KEY时，我会得到一个不属于我的键的随机值。如果删除KEY关键字，我需要的值实际上是在Id列中指定的。 -- omitdeclaring id as the key

浏览 3提问于2021-10-20得票数 0

1回答

如何在Spark Streaming 2.3.1中将每条记录写入多个kafka主题？

apache-spark、apache-kafka、spark-streaming

如何在Spark Streaming 2.3.1中将每条记录写入多个kafka主题？换句话说，我有5条记录和两个输出kafka主题，我希望在两个输出主题中都有5条记录。问题没有谈到结构化的流媒体案例。我正在寻找结构化流媒体的具体。

浏览 16提问于2018-07-23得票数 1

1回答

Spark Kafka Producer抛出过多打开文件异常

apache-spark、apache-kafka、spark-streaming、kafka-producer-api

我正在尝试运行一个用Java编写的Spark Kafka Job，以每批产生大约10K条记录到Kafka主题。这是一个spark批处理作业，它在循环中顺序读取100个(总共100万条记录) hdfs零件文件，并批量生成10K条记录的每个零件文件。我正在使用org.apache.kafka.clients.producer.KafkaProducer接口org.

浏览 0提问于2020-06-03得票数 0

1回答

Spark avro获取org.apache.spark.SparkException:在记录解析中检测到格式错误的记录

apache-spark、apache-kafka、apache-spark-sql、spark-streaming、avro

在我的Spark streaming工作中，我试图从Kafka主题中读取Confluentavro消息，并获得“在记录解析中检测到错误的记录”。object AvroReadMessage extends A

浏览 0提问于2019-12-16得票数 0

1回答

如何保证debezium生成的topic事件顺序，存储在kafka中并发送给spark？

apache-spark、apache-kafka、debezium、change-data-capture

我使用debezium捕获所有更改并将其发送给kafka。后来，我读取了Spark的所有信息，并使用jdbc将其发送到Apache Phoenix。我正在使用debezium和一个重路由选项，它只将所有表的更改发送到一个kafka主题。有了这个配置，我确信我可以按顺序阅读spark中独特的kafka主题。但我的问题是:如果我<e

浏览 96提问于2019-05-03得票数 0

3回答

Pyspark结构化流Kafka配置错误

apache-spark、pyspark、apache-kafka、apache-spark-sql、spark-structured-streaming

我之前已经成功地使用了pyspark for Spark Streaming (Spark 2.0.2)和Kafka (0.10.1.0)，但我的目的更适合于结构化流媒体。我尝试在线使用示例：ds1 = spark .format("kafka").optio

浏览 2提问于2017-07-07得票数 1

1回答

如何在使用Spark Java向Kafka Producer写入Spark Dataframe时控制记录数

dataframe、apache-spark、apache-kafka、spark-streaming、kafka-producer-api

我有一个包含两列的spark数据帧，'keyCol‘列和'valCol’列。数据帧的大小非常巨大，接近1亿行。我想以小批量的方式向kafka主题写入/产生数据帧，即每分钟10000条记录。此spark作业将每天运行一次，从而创建此数据帧如何在下面的代码中实现每分钟10000条记录的小批量写入，或者请建议是否有更好/更有效的

浏览 10提问于2020-04-27得票数 1

3回答

火花流断言失败:在对4096进行轮询后，未能获得火花执行器-a-group a-主题7 244723248的记录。

apache-spark、apache-kafka、spark-streaming

Kafka DirectStream的火花流问题： 1)调整spark.streaming.kafka.consumer.poll.ms增长2)将执行器内存从1G调整为2G。, "1024") .config("spark.streaming.k

浏览 4提问于2017-02-16得票数 6

点击加载更多