腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
Spark
Streaming
中
处理
太迟
的
数据
scala
、
apache-spark
、
spark-structured-streaming
水印允许使用窗口
在
一段时间内考虑将延迟到达
的
数据
包含在已经计算
的
结果
中
。它
的
前提是跟踪到一个时间点,在这个时间点之前,假设不会有更多
的
延迟事件到达,但如果它们到达了,它们仍然是discarded。有没有办法存储丢弃
的
数据
,以便稍后用于对帐?例如,
在
我
的
结构化流媒体
中
,我将水印设置为1小时。我每10分钟做一次窗口操作,并在20分钟后收到一个较晚
的
事件。是否有一种方法
浏览 28
提问于2019-07-03
得票数 0
回答已采纳
3
回答
使用
Spark
Streaming
时限制Kafka批量大小
apache-spark
、
apache-kafka
、
spark-streaming
、
kafka-consumer-api
是否可以限制Kafka消费者返回
Spark
Streaming
的
批量大小? 我之所以问这个问题,是因为我得到
的
第一批记录有上亿条记录,需要很长时间才能
处理
和设置检查点。
浏览 0
提问于2016-10-11
得票数 18
回答已采纳
1
回答
使用while循环中
的
Spark
处理
日志文件
apache-spark
、
pyspark
我有一个服务器,每1秒生成一些日志文件,我想使用Apache
Spark
处理
这个文件。我
的
问题是,对于这种无限运行并
处理
批量或一组生成文件
的
应用程序,最好
的
方法是什么。我应该使用一个无限
的
while循环,还是应该在cron job甚至像airflo
浏览 0
提问于2017-04-18
得票数 0
1
回答
如何节流火花流?
scala
、
apache-spark
、
amazon-dynamodb
这个问题脱离了我关于管理AmazonDynamoDbClient节流和重试
的
另一个问题。然而,我认为解决方案可能存在之前,我甚至到发电机电话。我
的
高级过程如下:我有一个scala应用程序,它使用Apache读取大型CSV文件,并对它们执行一些聚合,然后将它们写入dynamo。我将其部署到EMR以提供可伸缩性。问题是,一旦聚合完成,我们就有数以百万计
的
记录准备进入发电机,但我们有一个写容量
的
发电机。它们不需要立即插入,但是最好能控制每秒多少次,这样我们就可以根据用例对其进行微调。下面是我到目前为止所得到
的
代
浏览 3
提问于2017-03-28
得票数 3
2
回答
什么是“偏移从X改为0”错误与KafkaSource
在
星火结构化流?
apache-spark
、
apache-kafka
、
offset
、
spark-structured-streaming
、
spark-kafka-integration
在
带有检查点
的
Spark
结构化流应用程序
中
,我得到了“偏移量从X更改为0,一些
数据
可能被漏掉”
的
错误,但它似乎并没有真正造成任何问题。我想弄清楚这个错误到底意味着什么。 我
的
设置如下。我
在
另一个码头容器中有一个
Spark
结构化流(2.1.1)应用程序。溪流消耗卡夫卡
的
数据
。它们还在重新挂载到指定卷
中
的
位置使用检查点,以确保
在
重新启动之间保留元<e
浏览 2
提问于2017-05-09
得票数 3
1
回答
如何在
Spark
streaming
中
避免批量大小
的
突然峰值?
apache-spark
、
apache-kafka
、
spark-streaming
我正在从kafka流式传输
数据
,并试图将每批事件
的
数量限制
在
10个事件。
在
处理
10-15批次后,批次大小突然出现峰值。下面是我
的
设置:
spark
.
streaming
.backpressure.pid.min
浏览 4
提问于2017-11-17
得票数 0
1
回答
使用
Spark
Structured
Streaming
读取目录时,如何实现只读一次
处理
?
apache-spark
、
apache-kafka
、
spark-structured-streaming
我想使用流
处理
的
概念从本地目录读取文件,然后发布到Apache Kafka。我考虑过使用
Spark
Structured
Streaming
。此外,如果我们
在
结构化流媒体中使用检查点,当代码有任何升级或任何更改时,我们是否会有任何问题。
浏览 0
提问于2019-02-25
得票数 2
1
回答
如何限制星图操作?
apache-spark
我有一个S3 json
数据
集,它是KMS客户端加密DynamoDB
的
转储(即每条记录都是独立加密
的
KMS客户端)。我想知道是否有什么办法限制这些星图操作?
浏览 7
提问于2017-05-13
得票数 1
1
回答
spark
streaming
中
限制Kafka消费
数据
apache-kafka
、
spark-streaming
、
kafka-consumer-api
Spark
从kafka获取
数据
。我想通过
spark
-
streaming
限制记录消耗。关于卡夫卡
的
数据
非常庞大。我使用
spark
.
streaming
.kafka.maxRatePerPartition=1属性来限制
spark
中
的
记录。但是仍然
在
5分钟内,我收到了13400条消息。我
的
spark
程序每5分钟不能
处理
超过1000条消息
浏览 17
提问于2018-02-06
得票数 0
1
回答
Spark
Job未将消息发布到Kafka主题
scala
、
apache-spark
、
apache-kafka
、
spark-streaming
、
kafka-producer-api
我已经编写了
spark
作业来读取一个文件,将
数据
转换为json并将
数据
发布到Kafka:我尝试了所有选项,如1. posting thread.sleep 2.更改linger.ms小于thread.sleep.But什么都不工作out..it只是不发布任何东西到kafKa .I尝试过producer.flush()/producer.close().No错误
在
log.But
中
仍然没有发布任何东西。如果我写一个简单
的
独立制作人来发布消息到相同
的
kafka主题,
浏览 0
提问于2020-06-10
得票数 0
3
回答
持续信息JobScheduler:59 -
在
我
的
Spark
独立集群
中
添加作业时间*毫秒
apache-spark
、
spark-streaming
、
apache-spark-standalone
我们正在使用具有8核和32 We
的
Spark
独立集群,具有相同配置
的
3个节点集群。 有时批
处理
流在不到1秒
的
时间内完成。
在
某些情况下,控制台中会出现以下日志,该时间超过10秒。
浏览 0
提问于2016-03-29
得票数 3
1
回答
Spark
Streaming
Kafka直接消费者消费速度下降
scala
、
amazon-web-services
、
apache-spark
、
apache-kafka
、
spark-streaming
我使用在亚马逊网络服务
中
运行
的
spark
独立集群(
spark
和
spark
-
streaming
-kafka版本1.6.1),并使用检查点目录StreamingContext.getOrCreate(config.sparkConfig.checkpointDir, createStreamingContext)
的</
浏览 2
提问于2016-12-19
得票数 2
1
回答
hadoop同步日志
的
体系结构
hadoop
、
real-time
我
在
几个云提供商之间有不同
的
环境,比如windows服务器、rackspace
中
的
linux服务器、aws..etc。在这和内部网络之间有一道防火墙。我需要构建一个实时服务器环境,在这个环境
中
,所有新生成
的
IIS日志、apache日志都将同步到内部大
数据
环境。我知道有些工具,如Splunk或Sumologic可能会有所帮助,但我们需要在开源技术
中
实现这种逻辑。由于防火墙
的
存在,我假设我只能从云提供商那里提取日志而不是推送。谁能和我分享
浏览 4
提问于2015-12-28
得票数 0
回答已采纳
1
回答
无法使用
Spark
Structured
Streaming
覆盖默认值"
spark
.sql.shuffle.partitions“
scala
、
apache-spark
、
spark-structured-streaming
我想直接在代码
中
覆盖
spark
.sql.shuffle.partitions参数: val sparkSession = SparkSession .appName("
SPARK
") sparkSession.conf.set("
spark
.sql.shuffle.partitions", 2) 但此设置不会生效,因为
在
日志
中
我收到以下警告消息虽然
在
spar
浏览 39
提问于2021-04-30
得票数 2
1
回答
火花流|将不同
的
数据
帧并行写入多个表
scala
、
dataframe
、
apache-kafka
、
spark-structured-streaming
我正在从Kafka读取
数据
并加载到
数据
仓库
中
,从一个Kafka主题中我正在创建一个
数据
框架,
在
应用了所需
的
转换之后,我正在从中创建多个DFs并将这些DFs加载到不同
的
表
中
,但这个操作是按顺序进行
的
。| | |-- primary: boolean (nullable = true) 我分别为attribute1Formatted和attribute2Formatted创建了两个不同
的
数据
浏览 1
提问于2021-07-26
得票数 1
2
回答
数据
源io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。
scala
、
apache-kafka
、
spark-streaming
、
greenplum
我试图读取卡夫卡
的
数据
,并将其上传到格林梅利
的
数据
库使用火花。我使用
的
是格林梅-火花连接器,但我正在获取
数据
源,io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。是否格林梅源不支持流媒体
数据
?我曾尝试将
数据
源命名为“绿梅”,并将"io.pivotal.greenplum.
spark
.GreenplumRelationProvider“转换为
浏览 0
提问于2019-04-04
得票数 0
回答已采纳
1
回答
从Mesos集群收集日志
logging
、
apache-spark
、
flume
、
mesos
我
的
团队正在亚马逊EC2实例上部署一个新
的
集群。经过一些研究,我们决定使用Apache Mesos作为集群管理器,使用
Spark
进行计算。我们问自己
的
第一个问题是,对于每个不同
的
框架,从所有机器收集日志
的
最佳方式是什么。到目前为止,我们开发了一些自定义
的
bash/python脚本,它们从预定义
的
位置收集日志,将它们压缩并将压缩后
的
文件发送到S3。这种轮换由cron作业激活,该作业每小时运行一次。我一直
在
寻找
浏览 0
提问于2015-06-26
得票数 1
1
回答
显示
Spark
结构化流作业使用
的
事件数
apache-spark
、
spark-structured-streaming
我有2个线性火花结构化流式作业,从一个卡夫卡主题复制
数据
到另一个。 是否可以
在
Spark
UI中发布/查看消费/产生
的
事件数量?
浏览 13
提问于2020-04-15
得票数 1
回答已采纳
1
回答
在哪里可以找到与
spark
structured
streaming
相关
的
所有属性?
scala
、
spark-streaming
、
spark-structured-streaming
我想知道是否有与
spark
structured
streaming
相关
的
所有属性
的
列表?例如,
在
文档
中
,我们可以找到:当我按照
spark
sql上
的
配置文档
中
的
建议执行
spark
.s
浏览 2
提问于2018-09-03
得票数 0
0
回答
dstream.checkpoint(checkpointInterval)和
spark
.
streaming
.receiver.writeAheadLog.enable之间是否有联系
spark-streaming
根据
spark
streaming
文档,已排队但未
处理
的
数据
流将在每个checkpointInterval之后写入检查点目录。但同时有一个配置
spark
.
streaming
.receiver.writeAheadLog.enable = true,根据
spark
文档“从接收器接收
的
所有
数据
都会写入配置检查点目录
中
的
预写日志”。
spark
给出
的
每个
浏览 3
提问于2017-12-07
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券