腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(851)
视频
沙龙
1
回答
Spark
Structred
Streaming
Kafka
-
如何
从
主题
的
特定
分区
读取
并
进行
偏移量
管理
apache-spark
、
apache-kafka
、
spark-streaming
我对
spark
结构化数据流和
kafka
的
偏移
管理
是新
的
。使用
spark
-
streaming
-
kafka
-0-10-2.11。在消费者中,我
如何
从
主题
的
特定
分区
中
读取
?comapany_df = sparkSession
浏览 22
提问于2019-05-29
得票数 0
2
回答
Spark
Streaming
:
Kafka
重启后输入速率不正常
apache-kafka
、
spark-streaming
我目前正在
spark
上运行一个流媒体应用程序,它使用新
的
直接方法(没有接收器)消费一个简单
的
kafka
主题
。由于我们在
Kafka
集群上遇到了一些问题,即使在
Kafka
上恢复正常后,流媒体应用程序也遇到了一些问题:一些作业正在处理几乎空
的
rdd,而另一些作业正在处理两倍大小
的
rdd。我在
Kafka
和
Spark
两边都没有发现任何堆栈或线索。 有人能告诉我
如何
解决这类问题吗?或者至少到哪
浏览 0
提问于2016-05-18
得票数 0
1
回答
Kafka
使用者在知道
从
和直到
偏移量
时
从
主题
中
读取
数据
apache-spark
、
hive
、
apache-kafka
、
spark-streaming
、
kafka-consumer-api
我可以知道
kafka
消费者是否可以
读取
特定
的
记录,当
主题
的
分区
偏移量
已知时,直到知道该记录为止。在我
的
spark
streaming
应用程序中,有几个批次没有被处理(插入到表中),在这种情况下,我只想
读取
丢失
的
数据。我正在存储
主题
的
详细信息,即
分区
和
偏移量
。谁能让我知道这是否可以实现从
浏览 10
提问于2019-02-20
得票数 0
回答已采纳
1
回答
关于多个
spark
streaming
作业消耗同一个群组id
的
kafka
主题
的
问题
apache-kafka
、
spark-streaming
、
offset
、
partition
我提交了多个
spark
streaming
作业,这些作业使用相同
的
group.id消耗同一个
kafka
topic,正如纯
Kafka
文档中所说
的
,拥有相同group.id
的
多个消费者将加入同一个消费组,并且
kafka
topic中分块
的
记录将被拆分成这些消费者。然而,正如我在我
的
工作中测试
的
那样,这两个
spark
streaming
作业仍然使用相同
的</e
浏览 63
提问于2021-07-30
得票数 0
1
回答
如何
找到每个
Spark
partition正在访问
的
Kafka
分区
以及每个微批
的
偏移量
范围?
apache-spark
、
apache-kafka
、
spark-streaming
为了审计
的
目的,我需要跟踪每个
Spark
任务
的
详细信息,比如任务在哪里运行
的
worker IP,任务开始和完成
的
持续时间,它
读取
的
Kafka
主题
分区
,以及每个任务在每个微批间隔内处理
的
偏移量
是多少?我正在使用
Kafka
Direct
streaming
方法,我知道我可以使用以下代码 OffsetRange[] offsetRanges = ((H
浏览 0
提问于2017-09-17
得票数 0
1
回答
使用Apache
Spark
Batch实现Apache
Kafka
的
偏移
管理
scala
、
apache-spark
、
spark-streaming
我正在编写一个
Spark
(v2.2)批处理作业,它从
Kafka
主题
中
读取
。
Spark
作业正在使用cron
进行
调度。我不能使用
Spark
Structured
Streaming
,因为不支持非基于时间窗口。val df =
spark
.format("
kafka
") .option("
kafka
.bootst
浏览 15
提问于2017-08-28
得票数 2
回答已采纳
3
回答
如何
在星火流应用程序中使用
Kafka
主题
?
apache-spark
、
pyspark
、
apache-kafka
、
spark-streaming
当我
从
Kafka
主题
创建一个流
并
打印它
的
内容时 os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.
spark
:
spark
-
streaming
-
kafka
-0-8_2.11:2.0.2 pyspark-shell'
浏览 2
提问于2019-12-08
得票数 1
回答已采纳
1
回答
kafka
和
Spark
:通过API获取
主题
的
第一个
偏移量
apache-kafka
、
spark-streaming
我正在玩
Spark
Streaming
和
Kafka
(使用Scala API),
并
想从
Spark
Streaming
的
一组
Kafka
主题
中
读取
消息。KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)
从
Kafka
读取</em
浏览 1
提问于2017-04-07
得票数 1
1
回答
Spark
Structured
Streaming
-是否可以将
偏移量
写入两次
apache-kafka
、
offset
、
spark-structured-streaming
、
kafka-topic
、
spark-checkpoint
我正在使用
spark
structured
streaming
来消费
kafka
主题
中
的
数据,并将数据写入另一个
kafka
接收器。 我想存储两次
偏移量
-
从
主题
读取
时存储一次,
并
搅动
偏移量
。其次-当将数据写入输出接收器
并
写入偏移时,这可以通过给出检查点目录位置来实现, 是否可以写入订阅topic时消耗
的
偏移量
。
浏览 13
提问于2020-03-31
得票数 0
1
回答
Kafka
:将源
从
MySQL切换到
Kafka
apache-kafka
、
kafka-consumer-api
来自MySQL和
Kafka
主题
的
事件数据。我们将从MySQL加载历史数据,然后切换到
Kafka
,以便当前
的
data.Mysql ID也会流入
Kafka
。因此,消息包含事件ID。
Kafka
流事件将使用
spark
作业
进行
处理,
并
最终将数据摄取到报表中。 问题:
如何
加载历史数据
并
实时切换到
Kafka
源。 1-创建临时使用者组以存储所有
分区
的当前
浏览 18
提问于2020-01-23
得票数 0
1
回答
阅读星火批次作业中
的
Kafka
主题
scala
、
apache-spark
、
apache-kafka
、
spark-streaming
、
kafka-consumer-api
我正在编写一个
Spark
(v1.6.0)批处理作业,它是
从
Kafka
主题
中
读取
的
。为此,我可以使用org.apache.
spark
.
streaming
.
kafka
.KafkaUtils#createRDD,但是,我需要为所有
分区
设置
偏移量
,还需要将它们存储在某个地方(ZK?知道
从
哪里开始下一批作业。 在批处理作业中
读取
卡夫卡
的
正确方法是什么?我
浏览 0
提问于2016-06-25
得票数 7
回答已采纳
2
回答
如何
从
星火流DirectAPI中
的
每个
Kafka
分区
中并发
读取
apache-spark
、
apache-kafka
、
spark-streaming
、
kafka-consumer-api
、
kafka-producer-api
如果我是正确
的
,默认情况下,星火流1.6.1使用单个线程
从
每个
Kafka
分区
读取
数据,假设我
的
Kafka
主题
分区
为50,这意味着每个50个
分区
中
的
消息将按顺序
读取
或可能以循环方式
读取
。案例1: -If是的,那么
如何
在
分区
级别并行
读取
操作?创建多个KafkaUtils.createDirectStream是唯一<
浏览 4
提问于2016-12-12
得票数 2
1
回答
Spark
Streaming
Kafka
中
的
DStream过滤和偏移
管理
scala
、
apache-kafka
、
spark-streaming
我目前正在编写一个
Spark
流媒体应用程序,它从
Kafka
读取
数据,并在应用一些转换之前尝试解码它。stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)失败
的
解码和过滤发生在DStream上,而
偏移量
管理
是在foreachRDD内部完成
的
,这意味着我将只提交成功
的
记录。stream.asInstanceOf[CanCommitOffsets].commitAsync(of
浏览 0
提问于2017-10-31
得票数 5
5
回答
来自
Kafka
的
Spark
流有错误numRecords不能为负
apache-spark
、
apache-kafka
、
spark-streaming
、
mesos
这是一种奇怪
的
错误,因为我仍然将数据推送到
kafka
,
并
使用来自
kafka
的
消息,而Exception in thread "main" java.lang.IllegalArgumentException我搜索了,但没有得到任何与相关
的
资源。 让我来解释一下我
的
集群。我有一个服务器是主和代理运行mesos上,我设置了3个经纪人卡夫卡那样。然后,我在该集群上运行
spark
-job。作业,
从
kafka</em
浏览 0
提问于2016-01-25
得票数 11
2
回答
spark
流中奇怪
的
延迟
scala
、
apache-spark
、
streaming
、
apache-kafka
、
spark-streaming
我最近一直在使用
spark
streaming
来处理
kafka
中
的
数据。大多数情况下,数据处理在1-5秒内完成。我意外地发现
Kafka
的
request.timemout.ms默认设置为40秒,并将此设置更改为10秒。实际处理时间为1-5秒。我
的
环境如下所示。
Spark
<em
浏览 2
提问于2017-01-18
得票数 4
1
回答
Spark
Direct Stream没有为每个
kafka
分区
创建并行流
parallel-processing
、
spark-streaming
我们在集成
Spark
-
Kafka
streams时遇到了性能问题。项目设置:我们使用3个
分区
的
Kafka
主题
,每个
分区
产生3000条消息,并在
Spark
direct
streaming
中
进行
处理。我们面临
的
问题是:在处理端,我们使用
Spark
直接流方法来处理相同
的
内容。如以下文档所示。
Spark
应该创建与
主题
中
的</e
浏览 3
提问于2016-12-08
得票数 5
3
回答
使用OFFSET恢复
KAFKA
中丢失
的
消息
apache-kafka
、
spark-streaming
假设一个数据包由于故障而丢失(不确定它
的
使用者故障或代理)。使用offset恢复这段时间内丢失
的
消息应该做什么(代码实现)?谢谢
浏览 2
提问于2016-10-12
得票数 1
1
回答
Spark
结构流批量查询
apache-spark
、
pyspark
、
spark-structured-streaming
我是第一次接触
kafka
和
spark
structured
streaming
。我想知道
spark
in batch模式是
如何
知道
从
哪个
偏移量
读取
的
?如果我指定"startingOffsets“为”最早
的
“,我只会得到最新
的
记录,而不是
分区
中
的
所有记录。我在两个不同
的
集群中运行了相同
的
代码。df =
spark
浏览 0
提问于2020-10-24
得票数 0
1
回答
Kafka
消费者请求超时
apache-spark
、
apache-kafka
、
spark-streaming
我有一个
Spark
streaming
(Scala)应用程序运行在CDH 5.13中,使用client 0.10.0使用
Kafka
的
消息。我
的
Kafka
集群包含3个代理。
Kafka
topic被划分为12个
分区
,均匀分布在这3个代理之间。我
的
Spark
流媒体客户有12个执行器,每个执行器都有一个核心。
Spark
streaming
开始
从
Kafka</em
浏览 0
提问于2018-10-09
得票数 1
1
回答
如何
在
Kafka
topic中流式传输100G
的
数据?
apache-spark
、
apache-kafka
、
spark-structured-streaming
因此,在我们
的
一个
kafka
主题
中,有接近100 GB
的
数据。我们正在运行
spark
-structured来获取S3格式
的
数据问:
spark
-
streaming
如何
从
Kafka
读取
数据?是否
从<
浏览 0
提问于2018-12-20
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming与Kafka 整合的改进
Spark Streaming 中管理 Kafka Offsets 的几种方式
Spark Streaming与Kafka如何保证数据零丢失
Spark Streaming和Kafka集成深入浅出
Kafka 遇上 Spark Streaming
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券