腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
比较
两个
spark
streaming
作业
的
性能
?
scala
、
apache-spark
、
serialization
、
apache-kafka
我
的
spark
工作是使用kafka主题中
的
数据并执行一些操作。区别在于序列化,一个是使用java序列化,另一个是使用kryo序列化。
如何
比较
这
两个
流
作业
,因为它们在同一时间间隔内具有不同
的
每秒输入数量和不同
的
输入批量大小?
浏览 12
提问于2019-12-04
得票数 1
2
回答
为什么
Spark
结构化流不允许改变输入源
的
数量?
apache-spark
、
pyspark
、
apache-kafka
、
spark-structured-streaming
我打算停止流
作业
,添加/删除新主题,并在需要更新流
作业
中
的
主题时再次启动
作业
,使用中概述
的
两个
选项之一。# Subscribe to multiple topics .readStream \ .option("kafka.bootstrap.serversload() df.selectExpr("CAST(key AS STRING)&quo
浏览 6
提问于2020-06-09
得票数 2
1
回答
Spark
结构每个微批两次流式读取数据。
如何
避免
scala
、
apache-spark
、
spark-structured-streaming
、
spark-streaming-kafka
我对
spark
structure
streaming
有一个非常奇怪
的
问题。
Spark
structure
streaming
为每个微批次创建
两个
spark
作业
。因此,从Kafka读取数据两次。但是使用
spark
创建了
两个
作业
,一个只有1个阶段从Kafka读取,第二个有3个阶段读取-> shuffle ->写入。因此,第一个
作业
的
结果从未使用过。 这对
浏览 40
提问于2020-04-10
得票数 0
回答已采纳
1
回答
spark
流中是否允许睡眠语句
spark-streaming
) } } }); 当前,我无法运行我
的
作业
浏览 45
提问于2019-06-19
得票数 1
回答已采纳
1
回答
星星之火卡夫卡结构化流:发布并发更新
的
日志。检测到多个流
作业
apache-spark
、
apache-kafka
在我目前
的
设置中,我正在通过火花提交安排
两个
火花
作业
。
spark
.
streaming
.concurrentJobs 5当这
两个
工作都是独立调度时,它们就会按预期工作。但是,当我试图将它们放在一起时,通过一个接一个地提交,首先提交
的
作业
将停止使用日志进行响应: java.l
浏览 0
提问于2018-09-13
得票数 1
1
回答
Google Dataflow与Apache
Spark
Streaming
(在Google Cloud上或使用Google Dataproc)
apache-spark
、
google-cloud-dataflow
、
google-cloud-dataproc
我刚接触云和大数据,但我对它们很感兴趣,而且我在Java编程方面有丰富
的
经验。我目前正在做我
的
uni项目,用来
比较
Apache
Spark
streaming
和Google Cloud Dataflow
的
性能
。我已经阅读了很多文章,包括
的
比较
。我知道
Spark
和Dataflow
的
编程模型是不同
的
,但是由于我在这个领域
的
有限和新
的
知识,我试图理解是
浏览 2
提问于2016-04-19
得票数 0
3
回答
为什么火花在从检查点还原时抛出"SparkException: DStream尚未初始化“?
apache-spark
、
spark-streaming
、
checkpointing
在从检查点恢复时,我需要做一些具体
的
事情吗? 我可以看到它需要DStream.zeroTime集,但是当流被恢复时,zeroTime是null。它没有被恢复,可能是因为它是一个私有成员IDK。我可以看到还原流引用
的
StreamingContext确实有一个zeroTime值。是否有人有一个从检查点恢复并对zeroTime具有非空值
的
流示例?
浏览 2
提问于2016-01-29
得票数 7
回答已采纳
1
回答
关于多个
spark
streaming
作业
消耗同一个群组id
的
kafka主题
的
问题
apache-kafka
、
spark-streaming
、
offset
、
partition
我提交了多个
spark
streaming
作业
,这些
作业
使用相同
的
group.id消耗同一个kafka topic,正如纯Kafka文档中所说
的
,拥有相同group.id
的
多个消费者将加入同一个消费组,并且kafka topic中分块
的
记录将被拆分成这些消费者。然而,正如我在我
的
工作中测试
的
那样,这
两个
spark
streaming
作业
仍然使用相
浏览 63
提问于2021-07-30
得票数 0
1
回答
结构化流式传输指标
性能
?
apache-spark
、
monitoring
、
metrics
、
spark-structured-streaming
在尝试了一些监视结构化流
性能
和输入/输出指标的方法后,我发现一种可靠
的
方法是附加streamingQueryListener来输出streamingQueryProgress,以获得输入/输出数量。除了SparkUI,将queryProgress输出到文件或Kafka
的
最好方法是什么?在
spark
streaming
和
spark
structured之间
比较
性能</e
浏览 1
提问于2018-05-19
得票数 2
1
回答
在HDinsight上运行
的
spark
的
故障恢复
azure
、
apache-spark
、
master-slave
我试图按照中
的
步骤在Azure HDinsight上运行Apache
spark
我想知道我是必须自己管理主/从故障恢复,还是由HDinsight来处理。
浏览 0
提问于2015-04-08
得票数 0
1
回答
Spark
Streaming
在哪里运行?
apache-spark
、
spark-streaming
据我所知,
Spark
可以使用
Spark
Streaming
分析流。Kafka可以从多个来源接收数据。我不明白
的
是,如果我有一个Kafka集群从多个来源接收数据,数据会被发送到一个运行
Spark
Streaming
的
数据库吗?或者
Spark
Streaming
是否在应用服务器上运行?
浏览 5
提问于2017-01-25
得票数 0
回答已采纳
2
回答
Spark
(Kafka)流内存问题
java
、
apache-spark
、
apache-kafka
、
out-of-memory
我正在测试我
的
第一条处理来自Kafka
的
消息
的
Spark
Streaming
管道。我
的
测试数据真的很小,所以这种情况不应该发生。在查看了process之后,我意识到可能之前提交
的
spark
作业
并没有完全删除? 我通常像下面这样提交
作业
,并且我使用
的
是
Spark
2.2.1 /usr/local/
spark
/bin
浏览 2
提问于2018-05-04
得票数 3
1
回答
使用外部jar文件运行PySpark
作业
时找不到库
python
、
apache-spark
、
pyspark
、
mqtt
我有一个包含以下代码
的
PySpark
作业
InitiatorSpark.py: .option("topic",/
spark
-sql-
streaming
-
浏览 10
提问于2018-07-23
得票数 1
1
回答
谷歌云DataProc
的
性能
监控
google-cloud-platform
、
google-cloud-dataproc
对于处理,我们目前使用
的
是google cloud dataproc &
spark
-
streaming
。我们希望使用Ganglia、Graphite、Dr.Elephant等监控工具来检查
作业
性能
。 要设置其中任何一个,都需要修改每个节点中
的
配置。我想知道,数据处理程序本身是否支持任何这样
的
性能
监控工具?
浏览 0
提问于2016-06-13
得票数 0
1
回答
spark
streaming
中
的
ML模型更新
spark-streaming
、
apache-spark-ml
我已经通过
spark
批处理
作业
在hdfs中持久化了机器学习模型,我在我
的
spark
streaming
中使用了这个模型。基本上,ML模型是从
spark
驱动程序广播给所有执行器
的
。有人能建议我
如何
在不停止
spark
streaming
作业
的
情况下实时更新模型吗?基本上,当有更多
的
数据点可用时,将创建一个新
的
ML模型,但不知道
如何
将
浏览 11
提问于2018-02-12
得票数 2
1
回答
在卡夫卡星火流
的
情况下,
spark
.
streaming
.kafka.maxRatePerPartition和
spark
.
streaming
.backpressure.enabled有什么关系?
apache-spark
、
pyspark
、
apache-kafka
、
spark-streaming
、
spark-structured-streaming
/dir")我是一个初学者卡夫卡,并一直阅读卡夫卡
性能
优化技术,并遇到这
两个
。("
spark
.
streaming
.backpressure.enabled",”true”) 启用或禁用火花流
的
内部背压机制(自1.5起)。此速率是由
spark
.
streaming
.receiver.maxRate和
spar
浏览 0
提问于2021-09-13
得票数 4
回答已采纳
2
回答
每当文件落入s3存储桶时,
Spark
都会读取新交付
的
文件
amazon-web-services
、
apache-spark
、
amazon-s3
当文件登陆到s3中时,我想使用
Spark
来读取文件。 我不想使用lambda函数,相反,我正在尝试寻找一些其他方法,每当较新
的
文件落入s3存储桶时,都可以从亚马逊s3中读取文件。AWS是否向
Spark
提供任何此类事件通知?
浏览 1
提问于2020-04-21
得票数 0
3
回答
使用
Spark
Streaming
时限制Kafka批量大小
apache-spark
、
apache-kafka
、
spark-streaming
、
kafka-consumer-api
是否可以限制Kafka消费者返回
Spark
Streaming
的
批量大小? 我之所以问这个问题,是因为我得到
的
第一批记录有上亿条记录,需要很长时间才能处理和设置检查点。
浏览 0
提问于2016-10-11
得票数 18
回答已采纳
1
回答
无法使用
Spark
Structured
Streaming
覆盖默认值"
spark
.sql.shuffle.partitions“
scala
、
apache-spark
、
spark-structured-streaming
我想直接在代码中覆盖
spark
.sql.shuffle.partitions参数: val sparkSession = SparkSession .appName("
SPARK
") sparkSession.conf.set("
spark
.sql.shuffle.partitions", 2) 但此设置不会生效,因为在日志中我收到以下警告消息虽然在
spark
-submit外壳中传递
的
相同参数可以正常
浏览 39
提问于2021-04-30
得票数 2
1
回答
星火结构流自定义StateStoreProvide
java
、
apache-spark
、
spark-structured-streaming
默认情况下,结构化流
作业
使用HDFSStateStoreProvide。使用HDFS存储
的
问题是它是不可伸缩
的
。:481) at scala.Option.getOrElse(Option.scala:121)
如何
配置自定义状态存储提供?--conf
spark</em
浏览 1
提问于2018-12-07
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券