腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
spark
streaming
中
的
转换
需要
更多
时间
,
即使
没有
消息
也是
如此
、
、
、
我对
spark
streaming
有严重
的
性能问题。对于10秒
的
批处理间隔,程序大约
需要
2分钟。我尝试在
没有
来自kafka主题
的
消息
的
情况下进行调试。
即使
没有
要消费/处理
的
消息
,大多数
转换
也
需要
30秒以上
的
时间
。
即使
在decodeMessagesDF
中</e
浏览 12
提问于2019-02-13
得票数 1
1
回答
火花流
spark
.
streaming
.backpressure.pid.minRate是每个分区还是每个批处理间隔
的
总
消息
?
、
、
我有火花流应用程序从Kafka读取
消息
使用火花直接流(非接收者)方法和处理每个分区
的
消息
。在我
的
Kafka分区
中
,有时我们得到处理2000条
消息
需要
20秒
的
消息
,而对于相同
的
no,有些
消息
需要
7-9秒。信息
的
传递。 在波动
的
情况下,我们打开背压设置如下。读取RDD
中
的
一个分区
的
2000条<em
浏览 2
提问于2017-01-20
得票数 3
1
回答
当Kafka队列
中
的
消息
分配不均匀时,获取星火DStream批
中
的
最大
消息
、
我正在设置
spark
.
streaming
.kafka.maxRatePerPartition : 100。它在正常情况下运转良好。当
消息
在卡夫卡队列
中
的
分布并不均衡时,问题就出现了。正在发生
的
情况是,
即使
分区
中
没有
消息
,而其他分区有
更多
的
消息
(比maxRatePerPartition
更多
),但是
spark
批处理正在以较少
浏览 2
提问于2021-09-29
得票数 0
3
回答
使用
Spark
Streaming
时限制Kafka批量大小
、
、
、
是否可以限制Kafka消费者返回
Spark
Streaming
的
批量大小? 我之所以问这个问题,是因为我得到
的
第一批记录有上亿条记录,
需要
很长
时间
才能处理和设置检查点。
浏览 0
提问于2016-10-11
得票数 18
回答已采纳
1
回答
以Kafka为源
的
结构化流
中
的
JSON模式推理
、
为了实现这一点,我提供了一个硬编码
的
JSON模式作为StructType。我正在寻找一种在流过程
中
动态推断主题模式
的
好方法。这是我
的
代码:(这是Kotlin,而不是通常使用
的
Scala) .readStream() .option("kafka.bootstrap.serversProcessingTime("25 seconds")) .start("
浏览 2
提问于2020-10-21
得票数 1
回答已采纳
1
回答
kafka max.poll.records不适用于火花流。
、
、
、
我
的
火花流版本是2.0,kafka版本是0.10.0.1,火花流-kafka-0-10_2.11。我使用直接
的
方式获得卡夫卡
的
记录,我现在想限制我在一批
中
获得
的
信息
的
最大数量。星星之火中
的
消费者数量是卡夫卡
中
的
分区数?那么火花流
中
记录
的
最大数量是max.poll.records*consumers?
浏览 1
提问于2018-09-27
得票数 2
3
回答
如何在
Spark
streaming
中
获取当前批量
时间
戳
、
、
如何在
Spark
streaming
中
获取当前批量
时间
戳(DStream)?在执行过程
中
,我
需要
当前
的
时间
戳来验证输入数据
中
的
时间
戳。如果我与当前
时间
进行比较,那么每次RDD
转换
执行时,
时间
戳可能会有所不同。 有
没有
办法获得
时间
浏览 4
提问于2015-12-23
得票数 4
1
回答
将
Spark
批处理源
转换
为结构化流接收器
、
、
试图将org.apache.
spark
.sql.sources.CreatableRelationProvider
转换
为org.apache.
spark
.sql.execution.
streaming
.Sink,只需实现调用createRelation(...)
的
addBatch(...),但createRelation(...)中有一个df.rdd,这会导致以下错误: org.apache.
spark
.sql.catalyst.analysis.UnsupportedOperation
浏览 0
提问于2018-08-06
得票数 1
1
回答
火花流微批处理
、
如果
spark
streaming
在10秒
的
批处理间隔
中
获得50行
消息
,并且在40.5行
消息
之后10秒结束,而其余
的
消息
落入另一个10秒间隔,则前40.5行文本是一个RDD首先被处理,在我
的
用例
中
,前40行是有意义
的
,但下一行.5
没有
意义,第二个RDD第一.5行
也是
如此
,我
的
问题甚至是有效
的
?.
浏览 2
提问于2016-03-11
得票数 2
1
回答
与
Spark
资源使用相关
的
疑虑
、
、
我正在执行
Spark
Streaming
应用程序,并且正在缓存rdds用于历史回顾,我
的
批处理持续
时间
为1分钟,平均处理
时间
为14秒,因此执行器不会计算整个批处理持续
时间
。当我在内存
中
缓存rdd时,执行器
也是
如此
。如果执行者被拖延,我们是否应该认为这种拖延执行者是浪费资源。
浏览 14
提问于2017-06-29
得票数 0
2
回答
如何将主题中
的
Kafka gzip压缩
消息
读入
Spark
Streaming
、
、
、
我确实看到我们
需要
在生产者端进行更改,以使用Gzip压缩,但我不确定如何在阅读
消息
时解压。请把灯熄灭,告诉我从哪里开始。我有我
的
端到端流工作
的
未压缩
的
消息
。 谢谢
浏览 0
提问于2017-12-20
得票数 2
1
回答
从kafka到弹性搜索索引
的
Spark
流
、
、
、
我正在尝试使用
Spark
Streaming
将Kafka输入索引到elasticsearch
中
。kafka
中
的
消息
是这样
的
:我想在
Spark
Streaming
中
定义结构,以便在elasticsearch
中
索引此
消息
:我读过
浏览 1
提问于2016-02-10
得票数 1
1
回答
Spark
streaming
一个接一个地处理RDDs?
、
我用pyspark写了一个
Spark
Streaming
程序。 它通过socketTextStream接收实时输入
的
文本流,并进行相应
的
转换
,然后通过saveAsTextFile将其保存为csv文件。不使用
Spark
streaming
窗口操作,并且不
需要
以前
的
数据来创建输出数据。但是似乎在前一个RDD完成之前,
Spark
不会开始处理DStream
中
的
RDD,
即使
浏览 1
提问于2015-04-29
得票数 0
1
回答
从
Spark
Streaming
获取异常“未注册输出操作,因此
没有
要执行
的
操作”
、
、
、
package com.scala.sparkStreaming import org.apache.
spark
.
streaming
._ at org.apache.
spark
.
streaming
.StreamingContext.validate(StreamingContext.scala:517) at org.apache.
spark
.
st
浏览 2
提问于2020-05-22
得票数 1
2
回答
如何将
时间
戳追加到rdd并推送到elasticsearch
、
、
、
、
我是
spark
streaming
和elasticsearch
的
新手,我正在尝试使用
spark
从kafka topic读取数据,并将数据存储为rdd。在rdd
中
,我想在新数据到来时添加
时间
戳,然后推送到elasticsearch。 if(!
浏览 2
提问于2017-10-26
得票数 3
1
回答
Kafka Topic retention.ms在
Spark
Streaming
上下文中使用时不工作
、
我正在运行
Spark
Streaming
作业(意味着数据不断被推送到kafka主题,并被
Spark
消费者持续读取)。我
的
Kafka输入数据主题
的
保留
时间
设置为60000 (1分钟)。但是,Input Topic在1分钟后不会清除
消息
。如果
没有
新数据添加到主题中,则大约
需要
1分26分钟
的
时间
来清除。如果我连续添加数据两分钟,由于retention.ms设置为1分钟,我预计将清除一半
的
浏览 0
提问于2015-05-01
得票数 0
1
回答
Spark
past水印
中
的
延迟数据处理
、
在
Spark
中有
没有
一种方法来处理超过水印
的
数据? 考虑一个发送
消息
的
设备
的
用例,这些
消息
需要
在Kafka +
Spark
中
处理。虽然99%
的
消息
在10分钟内发送到
Spark
服务器,但偶尔设备可能会离开连接区一天或一周,并在内部缓冲
消息
,然后一旦连接恢复,就会在一周后发送。水印间隔必须相当有限,因为(1)主线情况下
的
结果必须及时
浏览 20
提问于2020-08-26
得票数 0
1
回答
如何在
Spark
Streaming
上下文中创建作业日志?
、
、
我目前正在对我
的
Spark
流媒体应用程序进行性能测试。总而言之,我通过套接字连接接收JSON
消息
,每秒一条
消息
。然后,我使用
Spark
Streaming
方法将
消息
作为RDDs处理,最后将生成
的
RDDs打印到数据库。这是我
的
问题:每当我想要检查块处理
时间
或调度延迟等时,我
需要
转到端口4040上
的
Spark
UI。 我想做
的
是在程序运行时使用这些值
浏览 0
提问于2016-05-06
得票数 1
1
回答
火花流作业不可恢复
、
我使用
的
是火花流作业,它使用带有初始RDD
的
mapWithState。当重新启动应用程序并从检查点恢复时,它将失败,错误如下: RDD
转换
和操作不是由驱动程序调用
的
,而是在其他
转换
中
调用
的
;例如,rdd1.map(x => rdd2.values.count() * x)无效,因为值
转换
和计数操作不能在rdd1.map
转换
中
执行。有关
浏览 12
提问于2017-06-23
得票数 12
7
回答
检查
Spark
流作业是否挂起
的
最佳方法
、
、
、
我有
Spark
streaming
应用程序,它基本上从Kafka获得触发
消息
,这启动了批处理,这可能
需要
2个小时。有一些事件,其中一些作业无限期地挂起,并且
没有
在通常
的
时间
内完成,目前我们无法在不手动检查
Spark
UI
的
情况下确定作业
的
状态。我想知道当前正在运行
的
spark
作业是否挂起
的
方法。我知道我可以使用驱动程序和执行器
的
度量标准。如果我要
浏览 6
提问于2018-10-18
得票数 8
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming和Kafka集成深入浅出
简谈Spark Streaming的实时计算整合
Spark Streaming 中管理 Kafka Offsets 的几种方式
从Storm到Flink:大数据处理的开源系统及编程模型
Flink 流式计算在节省资源方面的简单分析
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券