腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4320)
视频
沙龙
1
回答
通过读取具有两个不同
spark
结构化
流的相同主题来调试
Kafka
流水线
apache-kafka
、
kafka-consumer-api
、
spark-structured-streaming
、
spark-streaming-kafka
我有一个
Kafka
主题,就是在我的产品中流式传输数据。我希望
使用
相同的数据流进行调试,而不影响现有管道的
偏移
量。我记得在早期版本中为此目的
使用
了创建不同的消费者组,但我
使用
Spark
structured从
Kafka
读取数据,它不鼓励在从
kafka
读取数据时
使用
groupID。
浏览 27
提问于2020-10-16
得票数 1
回答已采纳
1
回答
spark
结构流中的端到端只需一次语义
spark-structured-streaming
我正在尝试理解在下面的场景中,
spark
结构化
流媒体中的端到端是否只有一次语义受到损害。 场景:启动具有
kafka
源和文件宿的
结构化
流
作业
。
Kafka
有16个分区,我正在与16个执行程序一起阅读。当特定的
批处理
未完成时,我中断了
作业
。16个任务中有8个任务已完成,我们生成了8个输出文件。现在,如果我再次运行该
作业
,
批处理
将启动,并从之前未完成的
批处理
的相同
偏移
量范围中读取数据,生成
浏览 0
提问于2018-08-08
得票数 0
1
回答
使用
Apache
Spark
Batch实现Apache
Kafka
的
偏移
管理
scala
、
apache-spark
、
spark-streaming
我正在编写一个
Spark
(v2.2)
批处理
作业
,它从
Kafka
主题中读取。
Spark
作业
正在
使用
cron进行调度。我不能
使用
Spark
Structured Streaming,因为不支持非基于时间窗口。val df =
spark
.format("
kafka
") .option("
kafka</e
浏览 15
提问于2017-08-28
得票数 2
回答已采纳
2
回答
Spark
Structured
Kafka
偏移
管理
apache-spark
、
apache-kafka
、
spark-structured-streaming
、
spark-kafka-integration
我正在研究在
kafka
中存储
kafka
偏移
量用于
Spark
结构化
流媒体,就像它对DStreams stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)一样,与我正在寻找的相同,但用于
结构化
流媒体。它是否支持
结构化
流媒体?如果是,我如何实现它?我知道
使用
.option("checkpointLocation", checkpointLocation)的hdfs检
浏览 10
提问于2019-05-16
得票数 3
1
回答
我们是如何
管理
火花
结构化
流中的抵消的?(与_
spark
_metadata有关的问题)
apache-spark
、
spark-streaming
、
spark-structured-streaming
背景:,我编写了一个简单的火花
结构化
蒸汽应用程序,可以将数据从卡夫卡转移到S3。我想摆脱星火
结构化
流的元数据和检查点文件夹,并自己
管理
偏移
。我们如何
管理
火花流中的
偏移
:,我已经
使用
val offsetRanges = rdd.asInstanceOfHasOffsetRanges.offsetRanges来获得
Spark
结构化
流中的
偏移
量。但想知道如何获得
偏移
和其他元数据来
管理
检查
浏览 2
提问于2020-06-17
得票数 1
回答已采纳
1
回答
StructuredStreaming -从GKE上的Strimzi
Kafka
读取数据,每10分钟写一次蒙古语。
mongodb
、
apache-spark
、
apache-kafka
、
spark-structured-streaming
我有
Kafka
主题中的数据(每10分钟发布一次数据),我计划
使用
(
批处理
模式)读取这些数据,并将其推到MongoDB中。请注意:这将
使用
GCP上的Composer/Airflow进行调度,这将创建一个Dataproc集群,运行星火代码,然后删除该集群。以下是我的当前代码: df_reader =
spark
.readStream.formatdatabase&quo
浏览 6
提问于2022-06-22
得票数 -1
1
回答
使用
Kafka
使用
Spark
结构化
批处理
作业
管理
偏移
apache-spark
、
apache-kafka
、
apache-spark-sql
、
spark-structured-streaming
我有一个编写
批处理
作业
的用例 我需要阅读
Kafka
主题,并将数据记录到HDFS。我的代码如下所示 val df: DataFrame =
spark
.read .option("subscribe", "test-topic") .optionparquet(buildPathWithCurrentBatchTime()) 每次
作业
读取
Kafka
主题时,它都会从最早
浏览 17
提问于2019-02-05
得票数 0
回答已采纳
1
回答
在卡夫卡星火流的情况下,
spark
.streaming.
kafka
.maxRatePerPartition和
spark
.streaming.backpressure.enabled有什么关系?
apache-spark
、
pyspark
、
apache-kafka
、
spark-streaming
、
spark-structured-streaming
这使得火花流能够根据当前
批处理
调度延迟和处理时间来控制接收速率,以便系统接收到的速度仅限于系统所能处理的速度。在内部,这动态地设置接收器的最大接收速率。此速率是由
spark
.streaming.receiver.maxRate和
spark
.streaming.
kafka
.maxRatePerPartition值所限定的上限。既然我是第一次运行应用程序,并且没有以前的微
批处理
,那么我应该为:
spark
.streaming.backpressure.initialRate指定一些值吗?如果是
浏览 0
提问于2021-09-13
得票数 4
回答已采纳
1
回答
阅读卡夫卡在火花批次
作业
(fromOffset untilOffset)
scala
、
apache-spark
、
apache-kafka
、
kafka-consumer-api
我在这个上看到,我们可以
使用
org.apache.
spark
.streaming.
kafka
.KafkaUtils#createRDD在火花
批处理
作业
中读取来自卡夫卡的消息,但是这种方法需要一个
偏移
范围,它需要一个“从
偏移
”和“直到
偏移
”。我从org.apache.
spark
.streaming.
kafka
.KafkaCluster#getLatestLeaderOffsets方法中获得了“from
偏移</e
浏览 0
提问于2018-02-06
得票数 0
1
回答
在带有
Kafka
的星火结构流中,火花如何
管理
多个主题的
偏移
量
scala
、
apache-spark
、
apache-kafka
、
apache-spark-sql
、
spark-structured-streaming
考虑一下
Spark
结构化
的流媒体
作业
,它读取来自
Kafka
的消息。 如果我们已经定义了多个主题,那么代码如何
管理
每个主题的
偏移
量?我已经通过了KafkaMicroBatchStream类,无法得到如何如果得到的
偏移
为不同的主题。def latestOffset(开始:
偏移
,readLimit: ReadLimit):
偏移
;方法只返回一个
偏移
量。尝试理解实现,因为我需要编写来自多个RDBMs表的自定义源代码,每个表都有
浏览 2
提问于2020-12-07
得票数 1
回答已采纳
1
回答
关于多个
spark
streaming
作业
消耗同一个群组id的
kafka
主题的问题
apache-kafka
、
spark-streaming
、
offset
、
partition
我提交了多个
spark
streaming
作业
,这些
作业
使用
相同的group.id消耗同一个
kafka
topic,正如纯
Kafka
文档中所说的,拥有相同group.id的多个消费者将加入同一个消费组,并且
kafka
topic中分块的记录将被拆分成这些消费者。然而,正如我在我的工作中测试的那样,这两个
spark
streaming
作业
仍然
使用
相同的主题的所有分区(不是均匀分割的),并且在who进程期间没有发生重新分
浏览 63
提问于2021-07-30
得票数 0
1
回答
如何用火花结构流
管理
卡夫卡的
偏移
量
scala
、
spark-structured-streaming
我有一个火花
结构化
的流媒体工作,它需要读取
kafka
主题中的数据并进行一些聚合。如果我设置了startingOffsets="earliest",那么
作业
将从主题读取所有数据,而不是从上一个流
作业
离开的位置读取数据。有人能帮助我如何配置,以设置
偏移
的权利,在最后一次流
作业
离开?我
使用
的是
Spark
2.4.0和
kafka
2.1.1,我尝试为编写
作业
设置检查点位置,但似乎
Spark
浏览 1
提问于2019-05-15
得票数 1
回答已采纳
1
回答
Spark
Structred Streaming
Kafka
-如何从主题的特定分区读取并进行
偏移
量
管理
apache-spark
、
apache-kafka
、
spark-streaming
我对
spark
结构化
数据流和
kafka
的
偏移
管理
是新的。
使用
spark
-streaming-
kafka
-0-10-2.11。在消费者中,我如何从主题的特定分区中读取?comapany_df = sparkSession .format("
kafka
").option("
kafka</
浏览 22
提问于2019-05-29
得票数 0
3
回答
如何获取
Kafka
offset,用于
结构化
查询,实现手动、可靠的offset
管理
?
apache-spark
、
apache-kafka
、
apache-spark-sql
、
offset
、
spark-structured-streaming
Spark
2.2引入了
Kafka
的
结构化
流媒体源代码。据我所知,它依靠HDFS检查点目录来存储
偏移
量,并保证“只传递一次”消息。但旧的docks (如)表示,
Spark
Streaming检查点不能跨应用程序或
Spark
升级恢复,因此不太可靠。作为一种解决方案,有一种做法是支持将
偏移
量存储在支持MySQL或RedshiftDB等事务的外部存储中。 如果要将
Kafka
源的
偏移
量存储到事务型DB中,如何从
结构化
流<em
浏览 1
提问于2017-09-11
得票数 28
回答已采纳
1
回答
当您重新启动火花
作业
时,如果它在输入给
kafka
的数据中遇到了意外的格式,会发生什么?
apache-spark
、
apache-kafka
、
spark-structured-streaming
我有一个问题,关于星火
结构化
流与卡夫卡。假设我正在运行一个火花
作业
,而且每件事情都很完美。有一天,我的火花工作失败了,因为卡夫卡的数据不一致。如果我们不修复数据问题并重新启动星火
作业
,它将读取导致失败的老行,因为我们还没有提交检查点。那我们怎么摆脱这个循环呢。如何解决卡夫卡主题中的数据问题,以恢复中止的火花
作业
?
浏览 0
提问于2020-05-12
得票数 3
回答已采纳
1
回答
使用
Spark
structured streaming 2.2 batch API
管理
Kafka
偏移
量
apache-spark
、
apache-kafka
、
spark-streaming
只想知道
Kafka
偏移
量的检查点是否适用于
Spark
structured stream (2.2)
批处理
API,或者我们需要
管理
偏移
量吗?
浏览 2
提问于2018-01-16
得票数 1
1
回答
Spark
Streaming中驱动
使用
直接
Kafka
API查询分区
偏移
量的频率是多少?
apache-kafka
、
spark-streaming
是针对每个
批处理
间隔查询
偏移
量还是以不同的频率查询
偏移
量?
浏览 1
提问于2015-11-17
得票数 1
2
回答
5分钟
Spark
批处理
作业
与流
作业
apache-spark
、
spark-streaming
我有一个火花
批处理
作业
,这是计划运行每5分钟,它需要2-3分钟来执行。由于已经添加了对动态分配
spark
.streaming.dynamicAllocation.enabled的支持,将其设置为每5分钟从源拉取数据的流式
作业
是一个好主意吗?在流/
批处理
作业
之间进行选择时,我应该记住哪些事项?
浏览 0
提问于2019-07-24
得票数 0
1
回答
结构化
流的检查点周期是多久一次,它是否是可配置的?
apache-spark
、
apache-kafka
、
offset
、
spark-structured-streaming
我正在为我们的数据转发工作从
Spark
批处理
切换到
结构化
流的过程中。我们
使用
由套接字连接组成的
Kafka
源和foreach接收器。通过
批处理
流,我试图通过将
偏移
量存储在每个ACK上的一个套接字上,从而实现精确的一次语义,但是由于我们的
偏移
量
管理
,它很容易每周发生几次生产吞吐量的中断。我现在注意到了一个经常出现的海报,Jacek Laskowski,关于
偏移
管理
: 你根本不应该处理这种被称为抵消的低
浏览 1
提问于2018-02-16
得票数 3
回答已采纳
1
回答
火花结构流批式读取检查点
apache-spark
、
spark-structured-streaming
我遇到的一个更困难的概念是检查点,以及
Spark
如何
使用
它从失败中恢复。我正在
使用
结构化
流从
Kafka
进行批量读取,并将它们作为Parquet文件写入S3,如下所示: .write() .但是,在
作业
运行时,我没有看到检查点文件。-54f0cc87-e437-4582-b998-a33189e90bd7-driver-0-5, groupId=
spark
-
kafka
-
浏览 5
提问于2021-10-14
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming与Kafka 整合的改进
Spark Streaming和Kafka集成深入浅出
第十篇|SparkStreaming手动维护Kafka Offset的几种方式
SparkStreaming源码阅读思路
超强盘点:15种大数据分析工具
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券