腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
可以
在
没有
HDFS
的
情况下
使用
Spark
Structured
吗
?
我经常
使用
HDFS
和Kafka,我注意到Kafka比
HDFS
更可靠。所以现在
使用
Spark
-
structured
-streaming,我很惊讶检查点只有
HDFS
。用Kafka来勾点会更快更可靠。那么,有
没有
可能在
没有
HDFS
的
情况下
使用
spark
structured
?奇怪
的
是,我们只能在Kafka中将
浏览 39
提问于2021-05-07
得票数 2
1
回答
从Kafka回放偏移
Spark
结构化流
、
、
、
我正在
使用
spark
structured
streaming (2.2.1)来消费来自Kafka (0.10)
的
主题。
HDFS
目录上设置
的
。
在
某些
情况下
,我希望重新启动流应用程序并从头开始
使用
数据。然而,即使我从
HDFS
目录中删除了所有检查点数据并重新提交了jar,
Spark
仍然能够找到我上次
使用
的
偏移量并从那里恢复。偏移量还在哪里?然而,我无法为每个设置<em
浏览 1
提问于2018-04-18
得票数 0
1
回答
如何在
spark
structured
streaming中只流式传输旧文件中
的
新数据(新附加
的
)?
、
、
我有多个文件是以块
的
形式编写
的
,我希望我
的
流在每次追加数据时处理每个文件
的
新数据。此外,我希望我
的
流只读取新文件,而不是已经处理
的
文件。我们将非常感谢您
的
帮助。
浏览 2
提问于2020-08-07
得票数 0
2
回答
压缩批次9时IllegalStateException:_
spark
_metadata/0不存在
、
、
、
我们有
使用
Spark
Structured
实现
的
流应用程序,它试图从Kafka主题读取数据并将其写入
HDFS
位置。有时应用程序会失败,并出现异常:java.lang.IllegalStateException: history/1523305060336/_
spark
_metadata/9.compact
浏览 0
提问于2019-05-31
得票数 6
2
回答
Spark
结构化流状态管理
、
、
我了解到,默认
情况下
,结构化流媒体支持HDFSBackedStateStoreProvider。这意味着所有与状态相关
的
信息都存储
在
HDFS
位置。它是否确保数据不会存储在内存中,这可能会导致长时间
的
GC暂停? 这个问题
的
原因是,我正在运行
的
作业
在
高流量期间停止处理数据,并在延迟15-20分钟后赶上。
浏览 2
提问于2018-12-07
得票数 0
1
回答
通过
spark
structured
streaming读取正在写入
的
文件
、
我
在
我
的
应用程序中
使用
spark
structured
。我有这样
的
用例,我需要在写文件
的
时候去读它。我尝试了
spark
structured
,如下所示: sch=StructType([StructField("ID",IntegerType(),True),StructField("COUNTRY"df_str.writeStream.format("parquet").o
浏览 0
提问于2021-01-02
得票数 0
1
回答
删除
spark
-
structured
-streaming写入
的
损坏拼接文件时会丢失数据
吗
?
、
、
、
我
使用
spark
-
structured
-streaming作为消费者从kafka获取数据,按照指南参考https://
spark
.apache.org/docs/latest/
structured
-streaming-kafka-integration.html然后将数据保存到
hdfs
作为拼图文件。这是我
的
问题:程序运行良好,但一些容器很少失败(但它确实发生了),导致了一些损坏
的
拼接文件。它将导致错误,
浏览 20
提问于2019-05-25
得票数 0
1
回答
使用
spark
和
spark
streaming构建服务
、
、
、
我读过一些关于
spark
streaming
的
文章,我想知道是否有可能
使用
rabbitmq作为代理从自定义来源流式传输数据,并通过
spark
流提供这些数据,
Spark
的
机器学习和图形处理算法将在这些数据上执行附注:我用python编写代码,我
没有
任何
使用
spark
的
经验,我
可以
称之为我试图实现
的
微服务
吗
? 谢谢。
浏览 5
提问于2020-09-02
得票数 0
1
回答
获取
Spark
Streaming中消息处理
的
顺序号
、
、
、
我
使用
Spark
Structured
来处理消息,我
使用
的
是Java8。我正在从kafka读取消息,并将消息写入文件,然后将文件保存在
HDFS
中。如果消息计数达到某个阈值,比如" message,999999",那么我需要从收到
的
下一条消息再次从1开始重置序列。 如果重新启动
spark
流作业,它应该从离开
的
位置继续执行序列。所以我需要把这个数字保存在
HDFS
类型
的
checkPoi
浏览 0
提问于2018-06-20
得票数 0
1
回答
避免Apache
Spark
结构化流中
的
多窗口重复读取
、
、
、
、
我是Apache
Spark
Structured
Streaming
的
新手,我正在做一个基本
的
POC。我
的
需求是构建一个规则引擎,它将从
HDFS
读取数据,
HDFS
接收来自多个源
的
连续数据流。我需要根据此
HDFS
数据
的
可配置时间窗口运行不同
的
规则。例如,可能有一个规则需要在最后5分钟
的
数据上运行,而第二个规则将在最后7分钟
的
数据上运行。如果我创建两个流,一个是5分
浏览 31
提问于2021-09-16
得票数 1
1
回答
如何
使用
结构化流检查点管理
HDFS
内存
、
、
我有一个长期运行
的
结构化流媒体作业,它消耗了几个Kafka主题,并在滑动窗口上聚合。我需要了解如何在
HDFS
中管理/清理检查点。作业运行良好,我能够从失败
的
步骤中恢复,而不会丢失数据,但是,我
可以
看到
HDFS
利用率每天都在增加。我找不到任何关于
Spark
如何管理/清理检查点
的
文档。以前,检查点存储
在
s3上,但由于要读/写大量
的
小文件,这被证明是非常昂贵
的
。://
浏览 34
提问于2019-01-07
得票数 2
回答已采纳
1
回答
在
spark
2.4.X中获取kafka头文件
、
、
如何在
Spark
Structured
Streaming中获取Kafka header字段(
在
Kafka 0.11+中引入)?我看到headers实现是
在
Spark
3.0中添加
的
,但在2.4.5中
没有
。我看到默认
情况下
spark
-sql-kafka-0-10
使用
的
是kafka-client 2.0。如果不能
使用
Spark
阅读Kafka
的
标题,
浏览 0
提问于2020-03-09
得票数 0
1
回答
ApacheSpark2.0.1与Spring集成
、
因此,我希望按照spring ()提供
的
指南
在
我
的
spring应用程序中创建一个apache集成。现在我有几个问题,因为它似乎火花2.0.1不包括火花组装罐。
在
继续这样做
的
过程中,我有哪些选择,因为集成似乎依赖于jar?有办法用Apache2.0.1获取jar
吗
?
浏览 4
提问于2016-10-08
得票数 1
回答已采纳
1
回答
Spark
structured
streaming -有可能在
没有
聚合
的
情况下
使用
spark
structured
窗口功能
吗
?
、
、
、
我正在处理CSV数据集,并
使用
火花流进行处理。我
可以
使用
spark
streaming中
的
窗口函数来应用批处理。有
没有
办法不用聚合函数就
可以
使用
spark
structured
来做同样
的
事情?互联网上所有可用
的
示例都
使用
groupBy选项。我只想将数据分成批处理,而不
使用
结构化流进行任何聚合。print(type(df)) df = df
浏览 0
提问于2019-06-09
得票数 0
1
回答
如何在
spark
structured
streaming中获取特定日期
的
聚合数据
、
我有一个火花结构化蒸汽作业,从kafka读取数据流,并写入到
HDFS
的
输出。我
的
问题是,我需要一整天
的
汇总结果,直到特定
的
时间。既然
spark
structured
不支持complete/update模式,有
没有
办法做到这一点? 如果我得到
的
数据是上午10点,我需要当前日期上午10点之前
的
汇总结果...有人能帮助你实现同样
的
目标
吗
?
浏览 0
提问于2019-01-19
得票数 0
1
回答
只
在
hdfs
中读取火花
、
、
我已经用
HDFS
设置了一个
Spark
集群配置,并且我知道
在
HDFS
示例中,
Spark
将读取默认
的
文件路径:有时,我想知道如何在
没有
reConfig我
的
集群(不
使用<
浏览 2
提问于2014-11-28
得票数 4
回答已采纳
1
回答
我只能从HDP安装
HDFS
吗
?
、
、
、
我想
使用
HDFS
作为存储Kubernetes上
Spark
的
数据
的
地方。因此,我只需要来自HDP
的
hdfs
。但是我想知道我是否
可以
在
没有
其他HDP组件
的
情况下
安装它。我能这么做
吗
?如果是,那是怎么做
的
?
浏览 15
提问于2020-01-20
得票数 0
4
回答
火花基本面
、
、
在
复习基本面时,我不太清楚一些基本
的
事情: 查询1.对于分布式处理--
可以
不
使用
HDFS
- Hadoop文件系统而在集群上工作(比如创建自己
的
分布式文件系统),还是需要一些基本
的
分布式文件系统,如
HDFS
查询2.如果我们已经
在
HDFS
中加载了一个文件(作为分布式块),那么
Spark
将再次将其转换为块,并在其级别上重新分发(用于分布式处理),或者只
使用
Haddop
HDFS
浏览 7
提问于2015-08-24
得票数 1
回答已采纳
1
回答
对于
spark
结构化流式处理Json记录,架构是否为必填项
、
、
我正在浏览下面的博客中
的
spark
structured
。 由于json记录在默认
情况下
会有模式,为什么我们要提供该模式。例如,
在
spark
batch streaming中,我们在下面的代码行中不提供任何模式。val peopleDF =
spark
.read.json(path) 代码直接从Json记录推断出Dataframe
的
浏览 3
提问于2018-03-23
得票数 1
2
回答
Spark
Structured
Streaming如何确定事件是否迟到?
我通读了
spark
structured
streaming文档,我想知道
spark
structured
是如何确定事件已经迟到
的
?它是否将事件时间与处理时间进行比较?1)这个处理时间是从哪里来
的
?由于它
的
流,它是否假设有人可能正在
使用
具有处理时间戳
的
上游源,或者
spark
添加了处理时间戳字段?例如,当阅读来自Kafka
的
消息时,我们会这样做 Dataset<Row>
浏览 0
提问于2018-02-26
得票数 4
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券