腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
结构化
流检查点管理HDFS内存
、
、
我有一个长期运行
的
结构化
流媒体
作业,它消耗了几个Kafka主题,并在滑动窗口上聚合。我需要了解
如何
在HDFS
中
管理/清理检查点。作业运行良好,我能够从失败
的
步骤
中
恢复,而不会丢失数据,但是,我可以看到HDFS利用率每天都在增加。我找不到任何关于
Spark
如何
管理/清理检查点
的
文档。以前,检查点存储在s3上,但由于要读/写大量
的
小文件
,这被证明是非常昂贵
浏览 34
提问于2019-01-07
得票数 2
回答已采纳
1
回答
如何
将
spark
结构化
流数据写入REST API?
、
我想将我
的
spark
结构化
流式
处理
数据推送到REST API。有没有人可以分享一下相同
的
例子。我发现很少,但所有都与
spark
流媒体
有关,而不是
结构化
流媒体
。
浏览 14
提问于2019-01-18
得票数 1
3
回答
如何
处理
spark
结构化
流媒体
中
的
小文件
问题
?
、
、
、
我在我
的
项目中有一个场景,我正在使用
spark
-sql-2.4.1版本阅读kafka主题messages。我可以使用
结构化
流媒体
来
处理
这一天。一旦数据被接收并
处理
后,我需要将数据保存到hdfs存储
中
的
相应拼图文件
中
。 我能够存储和读取镶木地板文件,我保持了15秒到1分钟
的
触发时间。这些文件
的
大小非常小,因此产生了许多文件。或者以后会导致任何
小文件
问题
吗? 2)<e
浏览 29
提问于2019-06-10
得票数 12
回答已采纳
1
回答
从
Spark
2.2到2.3
的
结构化
流媒体
有什么不同?
我在
Spark
2.3
的
发布说明中看到了
结构化
流媒体
的
公告/揭幕,但我知道它已经存在了一段时间了。由于一些依赖,我需要在系统实现中使用
Spark
2.2,但我也想开始将面向批
处理
的
工作转移到流范例
中
。在没有
Spark
2.3
的
过程
中
,我是否遗漏了什么重要
的
东西,或者这仅仅是
结构化
流媒体
成为“官方”而不是实验性
的
浏览 13
提问于2018-07-25
得票数 0
2
回答
Spark
Structured Kafka偏移管理
、
、
、
我正在研究在kafka
中
存储kafka偏移量用于
Spark
结构化
流媒体
,就像它对DStreams stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)一样,与我正在寻找
的
相同,但用于
结构化
流媒体
。它是否支持
结构化
流媒体
?如果是,我
如何
实现它?我知道使用.option("checkpointLocation", checkpo
浏览 10
提问于2019-05-16
得票数 3
1
回答
如何
在
Spark
Streaming 2.3.1
中
将每条记录写入多个kafka主题?
、
、
如何
在
Spark
Streaming 2.3.1
中
将每条记录写入多个kafka主题?换句话说,我有5条记录和两个输出kafka主题,我希望在两个输出主题中都有5条记录。
问题
没有谈到
结构化
的
流媒体
案例。我正在寻找
结构化
流媒体
的
具体。
浏览 16
提问于2018-07-23
得票数 1
1
回答
如何
处理
JSON文档(来自MongoDB)并在
结构化
流
中
写入HBase?
、
、
、
我正在获取mongoDB文档,然后在
处理
之后,我想使用Bson.Document库将其存储到Hbase
中
在
结构化
流媒体
中
,我得到了DatasetDocument scala> val stream =
spark
.readStream.forma
浏览 15
提问于2019-11-09
得票数 2
1
回答
在
Spark
2.1
的
Spark
-kafka集成
中
,有多少个执行者被指派去听一个kafka话题?
、
、
我有一个
Spark
集群,总共有17个executors。我已经将
Spark
2.1与Kafka集成在一起,并从topic
中
读取数据,例如: .readStream .options(kafka.bootstrap.servers","localhost:9092") .load 现在我想知道,
浏览 0
提问于2018-09-05
得票数 2
1
回答
外部查找
Spark
流
、
、
、
、
我有一个数据流从mysql表到kafka到我
的
spark
program.When,插入了一个新
的
行,我在流上做了转换并保存到cassandra。我
的
问题
是,当一行被更新时,我希望联合我之前创建该行时所做
的
转换和新
的
更新。我知道我可以选择使用状态流和数据库连接器,当我需要执行外部查找时,有人可以解释我有什么其他选择吗?
浏览 2
提问于2018-05-09
得票数 2
2
回答
数据集阵列上
的
Spark
并行化
、
、
环境: Scala、
spark
、
结构化
流媒体
如果我在Scala Array(Dataset[Row])中有一个数据集
的
数组,我对使用
处理
Dataset[Row]对象
的
函数并行
处理
感兴趣,那么通过map或foreach传递数组对象来利用
spark
集群
中
的
sparks并行性是否足够?编辑:我偶然发现了一些
问题
,我将在另一个主题中重新解释这个
问题
。
浏览 2
提问于2020-07-26
得票数 0
1
回答
Spark
流媒体
与
结构化
流媒体
、
、
在过去
的
几个月里,我使用了相当多
的
结构化
流媒体
来实现Stream Jobs (在使用了很多Kafka之后)。在阅读了“使用Apache
Spark
进行流
处理
”一书后,我有了这样一个
问题
:有没有什么要点或用例可以让我使用
Spark
流而不是
结构化
流?我是不是应该花点时间去了解它,或者既然我已经在使用
Spark
Structured Streaming了,我应该坚持使用它,并且之前
的
API没有任何好处。将
浏览 17
提问于2020-04-06
得票数 2
3
回答
Pyspark
结构化
流Kafka配置错误
、
、
、
、
我之前已经成功地使用了pyspark for
Spark
Streaming (
Spark
2.0.2)和Kafka (0.10.1.0),但我
的
目的更适合于
结构化
流媒体
。我尝试在线使用示例:ds1 =
spark
.format("kafka").option("partition.assignment.strateg
浏览 2
提问于2017-07-07
得票数 1
1
回答
如何
处理
kafka主题中
的
旧数据?
、
我开始使用
spark
structured。我
的
问题
是,在
spark
结构化
流媒体
作业之前,我
如何
处理
写入kafka主题
的
数据?如果我简单地创建一个批
处理
作业并按特定
的
浏览 87
提问于2018-11-26
得票数 2
回答已采纳
2
回答
如何
对
Spark
结构化
流媒体
进行单元测试?
、
、
我想了解一下
Spark
Structured Streaming
的
单元测试方面。我
的
场景是,我从Kafka获取数据,并使用
Spark
Structured Streaming使用它,并在数据上应用一些转换。 我不确定
如何
使用Scala和
Spark
来测试它。有人能告诉我
如何
使用Scala在
结构化
流媒体
中进行单元测试吗?我还是个
流媒体
新手。
浏览 3
提问于2019-07-05
得票数 2
1
回答
用谷歌PubSub实现Apache
Spark
的
结构化
流媒体
、
、
我正在使用
Spark
Dstream从谷歌PubSub中提取和
处理
数据。 我正在寻找一种方法来转移到
结构化
流媒体
,但仍然使用发布/订阅。 另外,我应该提一下,我
的
消息在Pub/Sub
中
压缩得很快。我发现了this
问题
,它声称不支持使用带有
结构化
流
的
发布/订阅。 是不是有人遇到过这个
问题
?是否可以实现自定义接收器以从发布/订阅
中
读取数据 谢谢
浏览 34
提问于2019-05-03
得票数 2
回答已采纳
4
回答
Kafka
结构化
流检查点
、
、
我正在尝试从Kafka做
结构化
流媒体
。我计划在HDFS
中
存储检查点。我读了一篇Cloudera博客,建议不要在HDFS
中
为
Spark
streaming存储检查点。结构流检查点也存在同样
的
问题
吗?。在
结构化
流
中
,如果我
的
spark
程序停机了一段时间,我
如何
从检查点目录
中
获取最新
的
偏移量,并在该偏移量之后加载数据。我将检查点存储在一个目录
中
浏览 3
提问于2017-10-07
得票数 4
2
回答
是否可以直接将数据从Nifi发送到
Spark
结构化
流/Storm,而不丢失数据?
、
、
、
在我当前
的
场景
中
,Nifi收集数据,然后发送给Kafka。然后,任何
流媒体
引擎都会消耗卡夫卡
的
数据,并对其进行分析。在这种情况下,我不想在Nifi和
流媒体
引擎之间使用卡夫卡。例如,
结构化
流;如果我直接将数据从Nifi发送到
Spark
结构化
流,
Spark
收到了这些数据,但是
Spark
的
节点被关闭了。火花节点中
的
数据会发生什么变化?(
Spark
结构化</em
浏览 0
提问于2019-02-14
得票数 0
回答已采纳
1
回答
如何
获取增量表
的
最新插入时间?
、
、
在我
的
Spark
结构化
流媒体
应用程序
中
,我有一个这样
的
代码。df = ( .option("startingTimestamp", starting_time_stamp)) 现在,如果给定
的
开始时间戳晚于上次插入
的
时间戳,我会得到一个错误。因此,我
的
问题
是<e
浏览 5
提问于2021-10-12
得票数 1
2
回答
Amazon EMR和
Spark
streaming
、
、
、
、
Amazon EMR,Apache
Spark
2.3,Apache Kafka,每天约1000万条记录。Apache
Spark
用于以5分钟
的
时间批量
处理
事件,每天一次工作节点正在死亡,AWS自动重新配置节点。查看日志消息时,节点中看起来没有空间,但它们在那里有大约1Tb
的
存储。有没有人在存储空间应该足够
的
情况下遇到了
问题
?我应该提供什么样
的</e
浏览 4
提问于2018-10-19
得票数 8
1
回答
Spark
Structured无法在卡夫卡
中
writeStream
、
我正在使用
结构化
流媒体
,并试图将我
的
结果发送到kafka主题中,名为"results“。
浏览 43
提问于2020-03-28
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
如何处理日志中的结构化数据?
如何处理直播中的高并发问题
在Spring MVC中如何处理中文乱码问题
Oracle 数据库中的出现坏块问题,该如何处理?
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券