腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(2462)
视频
沙龙
1
回答
如何
使用
Trigger.Once
()
计算
策略
在
Spark
Structured
Streaming
中
运行
多
数据流
查询
?
、
、
使用
火花结构化流
Trigger.Once
()
计算
策略
运行
多
数据流
查询
,而不会出现应用程序故障。
浏览 38
提问于2021-10-01
得票数 0
2
回答
在
Trigger.Once
中
使用
Spark
Structured
、
、
我正在尝试
使用
Trigger.Once
功能创建一个
Spark
Structured
作业,以定期将新数据写入到Parquet数据湖
中
的CSV数据湖
中
。这就是我所拥有的: .readStream .csv("s3a://csv-data-lake-files") .writeStream
浏览 13
提问于2017-08-16
得票数 12
2
回答
电火花外壳
中
的外部包(jars) --
如何
、
将外部包(jars)包含在火花放电外壳
中
的正确方法是什么?我想通过
spark
-sql-kafka库从卡夫卡
中
通过火花阅读,如下所述:。
运行
的机器上,还是
在
纱线
运行
的机器上?)我正在
使用
--master yarn和--deploy-mode client),或者依赖于--packages 我不知道
在
pyspark-shell in PYSPARK_SUBMIT_ARGS之后指定的选项是否被排除在外(如果我试
浏览 0
提问于2019-12-11
得票数 0
1
回答
删除
spark
-
structured
-
streaming
写入的损坏拼接文件时会丢失数据吗?
、
、
、
我
使用
spark
-
structured
-
streaming
作为消费者从kafka获取数据,按照指南参考https://
spark
.apache.org/docs/latest/
structured
-
streaming
-kafka-integration.html这是我的问题:程序
运行
良好,但一些容器很少失败(但它确实发生了),导致了一些损坏的拼接文件。它将导致错误,如不是拼图文件(长度太小: 4)或[.
浏览 20
提问于2019-05-25
得票数 0
2
回答
如何
对流式DataFrame进行多时间窗操作?
、
、
、
我
在
DataFrame中有3列:- time:TimeStamp,col1:Double,col2:Double我想执行以下操作: dataFrame.withWatermark("time", "10
浏览 0
提问于2017-08-30
得票数 1
1
回答
在
Spark
结构化流中指定"basePath“选项
、
、
在
Spark
Structured
Streaming
(Java语言)
中
读取分区数据时,是否可以设置basePath选项?以下代码(
使用
常规的非流式数据帧)
运行
良好: .option("basePath", basePath)+---+---+---++---+---+---+ |
浏览 56
提问于2018-03-01
得票数 6
1
回答
无法
使用
Bahir启动
Spark
应用程序
、
、
、
我正在尝试
在
Scala
中
运行
一个
Spark
应用程序来连接到ActiveMQ。出于这个目的,我正在
使用
Bahir format("org.apache.bahir.sql.
streaming
.mqtt.MQTTStreamSourceProvider")。当我
在
我的built.sbt中
使用
Bahir2.2时,应用程序
运行
正常,但在将其更改为Bahir3.0或Bahir4.0时,应用程序无法启动,并且它给出一个错误:
浏览 24
提问于2020-12-09
得票数 1
回答已采纳
2
回答
星火结构流-将静态数据集与流数据集连接起来
、
、
、
、
我
使用
Spark
structured
streaming
处理从Kafka读取的记录。以下是我想要达到的目标: (i) Grou
浏览 2
提问于2017-10-02
得票数 15
2
回答
用消防软管从分区文件夹
中
读取JSON
、
、
、
Kinesis将文件的持久性(
在
本例
中
为时间序列JSON )管理为一个文件夹层次结构,该层次结构由YYYY/MM/DD/HH (直到24小时编号)...great划分。那么我
如何
使用
Spark
2.0来读取这些嵌套的子文件夹,并从所有的叶json文件
中
创建一个静态的Dataframe呢?数据阅读器有“选项”吗?我的下一个目标是成为一个流DF,火龙将新文件持久化到s3
中
,
使用
Spark
2.0
中</em
浏览 4
提问于2016-10-30
得票数 8
1
回答
如何
通过Cassandra和AWS Redshift
使用
Kafka Streams
、
、
我有一个接收点击流的用例,我需要
使用
来自Cassandra的数据进行某些
计算
,最后将
计算
出的值推送到Redshift。 对于流和
计算
的这个用例,我正在探索所需的Tech Stack。可以
使用
Kafka Streams lib吗? 如果有人用过这个,可以阐明可能的优点/缺点或任何其他建议。
浏览 14
提问于2020-10-17
得票数 1
1
回答
是否有可能让火花结构化流(更新模式)写入数据库?
、
、
我
使用
spark
(3.0.0)结构化流从kafka读取主题。下面的火花官方指南部分没有提到DB sink,它也不支持为update mode:写到files附注:我跟踪了这些文章以获得aggregated流
查询
。stackoverflow
浏览 5
提问于2020-09-16
得票数 0
4
回答
如何
读取一次流数据集并输出到多个接收器?
、
我有一个
Spark
Structured
Streaming
Job,它从S3读取数据,转换数据,然后将其存储到一个S3接收器和一个Elasticsearch接收器。当这样做时,似乎
Spark
从S3源读取数据两次,每个接收器一次。 有没有一种更有效的方法来写入同一管道
中
的多个接收器?
浏览 1
提问于2017-09-19
得票数 14
1
回答
在
Azure Databricks
中
读取Twitter流数据
、
、
、
、
我想
使用
pyspark读取Azure Databricks
中
的流Twitter数据,但我不知道
如何
做到这一点?我
在
互联网上找到了几个链接,但它们都需要我的本地
计算
机的主机I或IP地址,但我想在云上做到这一点,有什么方法或其他代码可以做到吗?上面的https://towardsdatascience.com/sentiment-analysis-on-
streaming
-twitter-data-using-
spark
-
structu
浏览 15
提问于2021-07-18
得票数 0
1
回答
Spark
结构流批量
查询
、
、
我是第一次接触kafka和
spark
structured
streaming
。我想知道
spark
in batch模式是
如何
知道从哪个偏移量读取的?如果我指定"startingOffsets“为”最早的“,我只会得到最新的记录,而不是分区
中
的所有记录。我
在
两个不同的集群
中
运行
了相同的代码。集群A(本地机器)获取了6条记录,集群B( TST集群-第一次
运行
)获取了1条记录。,我会得到从昨天到当前
运行
浏览 0
提问于2020-10-24
得票数 0
2
回答
如何
更新RDD?
、
、
我们正在开发
Spark
框架,其中我们正在将历史数据移动到RDD集合
中
。现在有一个用例,其中RDD
中
的数据子集被更新,我们必须重新
计算
值。2.b.现在,我
在
步骤2.a
中
对这个新的RDD再次
浏览 45
提问于2014-12-16
得票数 20
4
回答
Cassandra的最佳方法(+
Spark
?)用于连续
查询
?
、
、
、
我们目前
使用
Hazelcast ()作为分布式内存数据网格。这对我们来说工作得还不错,但在我们的用例
中
,仅在内存
中
运行
已经走完了它的道路,我们正在考虑将我们的应用程序移植到NoSQL持久化存储。经过通常的比较和评估,我们即将选择Cassandra,并最终选择
Spark
进行分析。尽管如此,我们的架构需求中有一个缺口,我们仍然不知道
如何
在Cassandra
中
解决(无论有没有
Spark
):Hazelcast允许我们创建一个连续的
查询
,因为无
浏览 3
提问于2015-01-03
得票数 7
1
回答
用火花流将数据加载到azure数据库
中
、
、
、
、
我正在Azure数据库
中
尝试这段代码:df =
spark
.readStream.format("eventhubs
在
最后一步,我碰到了一个错误: org.apache.
浏览 1
提问于2020-05-13
得票数 0
1
回答
模拟滞后函数-
Spark
结构流
、
、
、
我正在
使用
Spark
Structured
Streaming
来分析传感器数据,并且需要根据传感器以前的时间戳执行
计算
。我的传入
数据流
有三列: sensor_id、timestamp和temp。我需要添加第四列,即传感器以前的时间戳,这样我就可以
计算
每个传感器的数据点之间的时间。 这很容易
使用
传统的批处理,
使用
lag函数和按sensor_id分组。
在
流媒体的情况下,最好的方法是什么?("sensor_id&
浏览 2
提问于2018-02-11
得票数 8
1
回答
如何
在
Spark
SQL中正确保存Kafka偏移量检查点,以便在join后重启应用程序
、
我是
Spark
的新手,我有一个设置,我想要读入两个
数据流
,每个
数据流
来自Kafka主题,
使用
Spark
structured
streaming
2.4。val df1 =
spark
.readStream .option("kafka.bootstrap.servers", endpoint)
浏览 37
提问于2021-03-21
得票数 1
回答已采纳
1
回答
如何
在zeppelin
中
自动更新结构化流
查询
的%
spark
.sql结果
、
、
、
我正在对来自kafka的数据
运行
结构化流式处理(
spark
2.1.0 with zeppelin 0.7),并尝试
使用
spark
.sql可视化流式处理结果%
spark
2 .builder() .master("yarn&quo
浏览 4
提问于2017-07-13
得票数 6
点击加载更多
相关
资讯
Spark Structured Streaming 入门学习:集成Kafka
Spark2.0新特性分析,看看你都是用到哪些了?
Structured Streaming实现超低延迟
1,StructuredStreaming简介
什么是 Apache Spark?大数据分析平台详解
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券