腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
spark
streaming
中
JavaMapWithStateDStream
中
的
密钥
数量
、
在这里,我找到了一个很好
的
证据,证明mapWithState可以处理10倍于updateStateByKey函数
的
密钥
:我
的
问题是:
JavaMapWithStateDStream
中
的
密钥
数量
是否有硬限制是否有任何已知
的
性能结果?它
的
可扩展性好吗?我想知道是否有可能在mapWithState中有效地管理超过1亿个
密钥
,以及我需要什么样
的
环境来做到这一点。
浏览 2
提问于2016-12-20
得票数 0
回答已采纳
2
回答
spark
streaming
和kafka,增加
spark
来自kafka
的
消息
数量
、
我有一个每秒产生60,000条消息
的
应用程序。我向Kafka发送消息,我希望在其他应用程序
中
通过
spark
streaming
接收这些消息,但
Spark
接收
的
消息速率约为40,000。我想增加
Spark
每个间隔接收
的
消息数,我该怎么做呢?
浏览 0
提问于2017-03-11
得票数 1
1
回答
如何将
JavaMapwithStateDstream
的
内容输出到textFile?
、
、
关于
Spark
-
streaming
的
应用,我有两个问题。第一个问题是如何将
JavaMapwithStateDstream
的
内容输出到textFile
中
,我浏览了API文档,发现它是类似于Dstreamlike
的
interface.So,我使用以下代码来尝试输出内容state.update(sum); }
JavaMapWithState
浏览 1
提问于2016-04-22
得票数 1
3
回答
使用
Spark
Streaming
时限制Kafka批量大小
、
、
、
是否可以限制Kafka消费者返回
Spark
Streaming
的
批量大小? 我之所以问这个问题,是因为我得到
的
第一批记录有上亿条记录,需要很长时间才能处理和设置检查点。
浏览 0
提问于2016-10-11
得票数 18
回答已采纳
1
回答
在纱线上使用火花流
的
动态分配,而不是缩小执行器
、
、
我在yarn集群上使用
spark
-
streaming
(
spark
version 2.2),并尝试为我
的
应用程序启用动态内核分配。executor
的
数量
可以根据需要增加,但是一旦分配了executor,即使流量减少了,它们也不会缩小,也就是说,一旦分配了executor就不会被释放。我在
spark
-submit命令
中
设置
的
配置如下: --conf
spark
.dynamicAllocatio
浏览 19
提问于2018-12-25
得票数 1
回答已采纳
1
回答
kafka max.poll.records不适用于火花流。
、
、
、
我
的
火花流版本是2.0,kafka版本是0.10.0.1,火花流-kafka-0-10_2.11。我使用直接
的
方式获得卡夫卡
的
记录,我现在想限制我在一批
中
获得
的
信息
的
最大
数量
。星星之火中
的
消费者
数量
是卡夫卡
中
的
分区数?那么火花流
中
记录
的
最大
数量
是max.poll.records*consumers?
浏览 1
提问于2018-09-27
得票数 2
1
回答
如何在
Spark
streaming
中
避免批量大小
的
突然峰值?
、
、
我正在从kafka流式传输数据,并试图将每批事件
的
数量
限制在10个事件。在处理10-15批次后,批次大小突然出现峰值。下面是我
的
设置:
spark
.
浏览 4
提问于2017-11-17
得票数 0
1
回答
如何让
spark
kafka流
中
的
消费群体,将消费者分配到消费群体
中
、
、
我有一个名为topic_1
的
主题,并创建了4个分区。我需要在Kafka
spark
stream
中
并行阅读。所以我需要创建一个消费者组和消费者。 你能帮帮我吗?我该怎么做?现在Kafka星火流,一次接受来自Kafka
的
一个请求。
浏览 0
提问于2020-10-15
得票数 0
2
回答
PairDStreamFunctions.mapWithState在设置超时时失败java.util.NoSuchElementException: None.get
嗨,我正在使用带超时功能
的
mapwithstate api,当超时间隔到达理想数据时,我得到了下面提到
的
异常。我使用
的
示例位于这个位置,JavaPairDStream<String, Integer> wordsDstream = words.mapToPair( new P
浏览 4
提问于2016-02-25
得票数 1
回答已采纳
1
回答
如何限制星图操作?
我有一个S3 json数据集,它是KMS客户端加密DynamoDB
的
转储(即每条记录都是独立加密
的
KMS客户端)。我想知道是否有什么办法限制这些星图操作?
浏览 7
提问于2017-05-13
得票数 1
3
回答
持续信息JobScheduler:59 -在我
的
Spark
独立集群
中
添加作业时间*毫秒
、
、
我们正在使用具有8核和32 We
的
Spark
独立集群,具有相同配置
的
3个节点集群。 有时批处理流在不到1秒
的
时间内完成。在某些情况下,控制台中会出现以下日志,该时间超过10秒。
浏览 0
提问于2016-03-29
得票数 3
3
回答
火花流断言失败:在对4096进行轮询后,未能获得火花执行器-a-group a-主题7 244723248
的
记录。
、
、
Kafka DirectStream
的
火花流问题: .config("
spark
.default.parallelism", "2").config(&q
浏览 4
提问于2017-02-16
得票数 6
1
回答
与Scala2.12一起使用
的
Twitter API
、
、
、
我正在用Scala2.12(用SBT构建)构建一个
Spark
(3.0.0)流应用程序。我如何从Twitter
中
获得tweet,因为所有的库都是针对Scala <= 2.11
的
。编辑:我在尝试用libs构建时获得
的
示例输出:[error]import org.apache.
spark
.
streaming
.tw
浏览 2
提问于2020-08-26
得票数 2
2
回答
spark
流
中
奇怪
的
延迟
、
、
、
、
我最近一直在使用
spark
streaming
来处理kafka
中
的
数据。大多数情况下,数据处理在1-5秒内完成。然而,在几个批次之后,它连续花费了41 ~ 45秒,并且大部分延迟发生在从stage0获取数据
的
区域。我
的
环境如下所示。
Spark
streaming
2.1.0(createDirectStream)批量间隔: 20s Request.ti
浏览 2
提问于2017-01-18
得票数 4
2
回答
如何更新RDD?
、
、
我们正在开发
Spark
框架,其中我们正在将历史数据移动到RDD集合
中
。现在有一个用例,其中RDD
中
的
数据子集被更新,我们必须重新计算值。 HistoricalData以RDD
的
形式出现。我根据请求范围创建了另一个RDD,并将该RDD
的
引用保存在一个ScopeCollection
中
浏览 45
提问于2014-12-16
得票数 20
1
回答
无法使用
Spark
Structured
Streaming
覆盖默认值"
spark
.sql.shuffle.partitions“
、
、
我想直接在代码
中
覆盖
spark
.sql.shuffle.partitions参数: val sparkSession = SparkSession .appName("
SPARK
") sparkSession.conf.set("
spark
.sql.shuffle.partitions", 2) 但此设置不会生效,因为在日志
中
我收到以下警告消息虽然在
spark
-submit外壳<em
浏览 39
提问于2021-04-30
得票数 2
2
回答
为什么
Spark
结构化流不允许改变输入源
的
数量
?
、
、
、
我打算停止流作业,添加/删除新主题,并在需要更新流作业
中
的
主题时再次启动作业,使用
中
概述
的
两个选项之一。,并试图理解为什么“不允许”更改输入源
的
数量
: 在出现故障或有意关闭
的
情况下,您可以恢复上一个查询
的
前一个进度和状态
浏览 6
提问于2020-06-09
得票数 2
1
回答
在这个JVM
中
可能只运行一个SparkContext -[SparkContext]
、
、
、
、
我试图运行以下代码来实时获取twitter信息:import org.apache.
spark
.
streaming
._但是,当它到达以下命令:val sc = new SparkContext(sparkConf)时,会出现以下错误: 17/05/ 09 :08:35警告SparkContext:在同一个JVM
中
检测到多个正在
浏览 2
提问于2017-05-10
得票数 9
回答已采纳
1
回答
“`sbt”在添加依赖项后编译时会导致错误
、
、
、
我向built.sbt添加了以下依赖项,在终端
中
运行sbt run之后,得到了以下错误:[info] welcome to sbt 1.5.5 (Private Build Java/localorg.apache.
spark
/
spark
-
streaming
/3.1.2/ivys/ivy.xml [error] not found: https://repo1.maven.org/maven2/org
浏览 1
提问于2021-09-16
得票数 3
回答已采纳
2
回答
如何修复GKE上星火应用程序
中
的
"NullPointerException: projectId不能为空“?
、
、
、
、
<init>(StreamExecution.scala:137) at org.apache.
spark
.sql.
streaming
.StreamingQueryManager.startQuery:466) at org.apache.
spark
.sql.
stream
浏览 2
提问于2021-02-04
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券