腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
4
回答
Kafka
结构
化
流
检查点
、
、
我正在尝试
从
Kafka
做
结构
化流媒体。我计划在
HDFS
中
存储
检查点。我读了一篇Cloudera博客,建议不要在
HDFS
中
为
Spark
streaming
存储
检查点。
结构
流
检查点也存在同样的问题吗?。在
结构
化
流
中
,如果我的
spark
程序停机了一段时间,我
如何
从
检查点目录
浏览 3
提问于2017-10-07
得票数 4
1
回答
如何
从
Kafka
中
读取
JSON
数据
,
并
使用
Spark
结构
流
存储
到
HDFS
?
、
、
我正在尝试
从
Kafka
读取
JSON
消息,
并
使用
spark
structured将它们
存储
在
HDFS
中
。我遵循了示例,当我的代码如下所示时: .read \ .option("
kafka
.bootstrap.servers", ""
浏览 43
提问于2018-07-25
得票数 1
1
回答
火花
结构
化
流
检查点在生产中的
使用
、
、
、
、
当
使用
Spark
结构
化
流
时,我难以理解检查点是
如何
工作的。
使用
Spark
结构
化
流
将这些事件与确认事件流连接起
浏览 7
提问于2020-07-08
得票数 3
1
回答
Spark
Structured Streaming with
Kafka
source,在查询运行时更改主题分区的数量
、
、
、
、
我设置了一个
从
Kafka
主题
读取
的
Spark
结构
化
流
查询。如果在
Spark
查询运行时更改了主题中的分区数量,
Spark
似乎不会注意
到
,并且不会消耗新分区上的
数据
。除了停止和重新启动查询之外,有没有办法让
Spark
检查同一主题中的新分区?
spark</
浏览 32
提问于2019-11-08
得票数 0
1
回答
使用
Java将zip文件解压缩到
HDFS
、
、
我
使用
Java-
Spark
,我
从
Kafka
主题得到消息,表明在压缩文件路径上,我想将这个压缩文件提取到
HDFS
中
。 我有
从
Kafka
与火花
结构
化
流
读取
消息的代码。 解压文件
到
HDFS
的方法是什么?我
使用
来自net.lingala.zip4j.core.ZipFile的ZipFile,如下所示: ZipFile zipFile = new ZipF
浏览 82
提问于2019-02-14
得票数 1
2
回答
用于NRT
数据
应用的Google
、
、
、
、
我正在评估
Kafka
/
Spark
/
HDFS
,用于开发NRT (子秒级) java应用程序,该应用程序接收来自外部网关的
数据
,并将其发布
到
桌面/移动客户端(
使用
者),用于各种主题。同时,
数据
将通过用于分析和ML的
流
和批处理(持久)管道提供。 独立的TCP客户端
从
外部TCP服务器
读取
流
数据
。桌面/移动用户应用程序订阅各种
浏览 2
提问于2016-02-16
得票数 0
2
回答
如何
在start()之前执行操作?
、
、
我正在开发一个火花
流
作业(
使用
结构
化
流
,而不是
使用
DStreams)。我
从
kafka
收到一条消息,其中将包含许多带有逗号分隔值的字段,其中第一列将是一个文件名。现在,基于该文件名,我将不得不从
HDFS
读取
文件,
并
创建一个
数据
文件并在该文件上进一步操作。这似乎很简单,但是seems不允许我在调用start之前运行任何操作。火花文档也引用了同样的话。此外,还有一些Dataset方法无法在
流</e
浏览 3
提问于2017-10-13
得票数 1
1
回答
使用
Python的Azure服务总线
、
、
、
、
您能提供一些关于
使用
Python
使用
Azure Service Bus
流
消息的建议吗?因为我发现Azure Service Bus没有
spark
结构
化
流
源,所以在这种情况下,我可以
使用
提供的Python客户端
读取
Azure Service Bus消息,然后
从
Python客户端
读取
每个消息并将其写入
Kafka
主题,在这个
Kafka
主题上,我将应用
spark
结
浏览 0
提问于2021-03-09
得票数 0
1
回答
结构
化流到将
JSON
保存到
HDFS
、
、
、
、
我的
结构
化星火流程序是
从
Kafka
读取
JSON
数据
并以
JSON
格式写入
HDFS
。我能够将
JSON
保存到
HDFS
,但它
使用
以下方法保存
JSON
字符串:key as below: {"jsontostructs
如何
只保存 {"age":4
浏览 1
提问于2019-07-27
得票数 0
回答已采纳
3
回答
如何
获取
Kafka
offset,用于
结构
化查询,实现手动、可靠的offset管理?
、
、
、
、
Spark
2.2引入了
Kafka
的
结构
化流媒体源代码。据我所知,它依靠
HDFS
检查点目录来
存储
偏移量,
并
保证“只传递一次”消息。但旧的docks (如)表示,
Spark
Streaming检查点不能跨应用程序或
Spark
升级恢复,因此不太可靠。作为一种解决方案,有一种做法是支持将偏移量
存储
在支持MySQL或RedshiftDB等事务的外部
存储
中
。 如果要将
Kafka
源的偏移量<e
浏览 1
提问于2017-09-11
得票数 28
回答已采纳
1
回答
阅读星火批次作业
中
的
Kafka
主题
、
、
、
、
我正在编写一个
Spark
(v1.6.0)批处理作业,它是
从
Kafka
主题中
读取
的。为此,我可以
使用
org.apache.
spark
.streaming.
kafka
.KafkaUtils#createRDD,但是,我需要为所有分区设置偏移量,还需要将它们
存储
在某个地方(ZK?
HDFS
?)知道
从
哪里开始下一批作业。 在批处理作业
中
读取
卡夫卡的正确方法是什么?我还考虑编写一个
流
浏览 0
提问于2016-06-25
得票数 7
回答已采纳
1
回答
基于apache超级集的kappa体系
结构
、
、
在互联网上有很多关于kappa体系
结构
的信息,在浏览了一些概念方面之后,我试图深入
到
一些更具体的方面。作为我的主要来源,我
使用
了。当然,您可以轻松地将apache与PostgresSQL
数据
库连接起来,
并
创建图表。 但是现在你想看看你
如何
用卡帕架构来做这件事,你加入了卡夫卡和火花。您可以将事件发送给
kafka
,并且可以在
中
读取
此类事件。卡夫卡将保留一个特定时期的信息,如的答案所指出的。当我读到将超级集与
spark
连
浏览 6
提问于2022-06-21
得票数 2
回答已采纳
1
回答
如何
使用
结构
化
流
检查点管理
HDFS
内存
、
、
我有一个长期运行的
结构
化流媒体作业,它消耗了几个
Kafka
主题,并在滑动窗口上聚合。我需要了解
如何
在
HDFS
中
管理/清理检查点。作业运行良好,我能够
从
失败的步骤
中
恢复,而不会丢失
数据
,但是,我可以看到
HDFS
利用率每天都在增加。我找不到任何关于
Spark
如何
管理/清理检查点的文档。.start() 据我所知,检查点应该是自动清理的;几天后,我看到我的
HDFS
<e
浏览 34
提问于2019-01-07
得票数 2
回答已采纳
2
回答
将
JSON
插入Hadoop
、
、
、
、
我每天都有很多
数据
(
JSON
字符串)(大约150-200B)。 我想将
JSON
插入
到
Hadoop
中
,最好的方法是什么(我需要快速插入和快速查询
JSON
字段)?我是否需要
使用
hive并为我的
JSON
创建Avro方案?或者,我是否需要将
JSON
作为字符串插入
到
特定列
中
?
浏览 0
提问于2018-06-19
得票数 0
1
回答
如何
在
spark
structured streaming
中
获取特定日期的聚合
数据
、
我有一个火花
结构
化蒸汽作业,
从
kafka
读取
数据
流
,
并
写入
到
HDFS
的输出。我的问题是,我需要一整天的汇总结果,直到特定的时间。既然
spark
structured不支持complete/update模式,有没有办法做到这一点? 如果我得到的
数据
是上午10点,我需要当前日期上午10点之前的汇总结果...
浏览 0
提问于2019-01-19
得票数 0
1
回答
当星火
从
文件系统
读取
时,它会被送到驱动程序吗?
、
、
我想知道当星火吞食
数据
时,
数据
是否被输入
到
驱动程序
中
并发送给工作人员,由
Spark
指示节点
从
文件系统
读取
数据
?案例1 当
读取
文件系统时,假设文件
浏览 0
提问于2017-08-07
得票数 1
回答已采纳
2
回答
具有独特消息模式的星火
结构
流
多个
Kafka
主题
、
、
现状: 今天,我构建了一个
Spark
结构
化
流
应用程序,它
使用
了一个包含
JSON
消息的
Kafka
主题。嵌入在
Kafka
主题的值
中
包含了有关消息字段的源和模式的一些信息。主题,我已经
使用
订阅选项按主题部署了这个
Spark
结构
化
流
应用程序。应用程序应用该主题的唯一模式(通过批处理
读取
Kafka
主题中的第一条消息
并
映射该模式)并将其写入
浏览 1
提问于2018-04-11
得票数 3
2
回答
如何
从
node-red向Hadoop发送
数据
?
、
、
、
我需要一种
从
node-red发送
数据
的机制,以
存储
在
HDFS
(Hadoop)
中
。我更喜欢
数据
是流式传输的。我正在考虑
使用
“websocket out”节点将
数据
写入其中,
并
使用
Flume代理进行
读取
。你能让我知道我的方向是否正确,如果我不是,请澄清一些细节?最新消息: node-red提供了'bluemixhdfs‘节点,它与IBM bluemix绑定在一
浏览 53
提问于2017-01-09
得票数 2
1
回答
暂停
并
恢复KafkaConsumer
中
的SparkStreaming
、
:) 我在一种(奇怪的)情况下结束了自己的工作,简单地说,我不想
使用
任何来自
Kafka
的新记录,所以暂停主题中所有分区的sparkStreaming消费(InputDStreamConsumerRecord),执行一些操作,最后继续
使用
记录。版本:
Kafka
: 0.10火花:2.3.0Scala: 2.11.8
浏览 3
提问于2020-06-17
得票数 0
回答已采纳
2
回答
JDBC源的火花
结构
化
流
、
、
、
、
有人能让我知道是否有可能从JDBC源
中
触发
结构
化
流
吗?例如,SQL或任何RDBMS。 但是,我想知道它是否在Apache上得到了官方的支持?
浏览 8
提问于2022-02-26
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券