腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7315)
视频
沙龙
1
回答
窗口
(固定、
滑动
等)&
Spark
SQL DSL
中
的
水印支持
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
Spark
SQL ( DSL而不是API)是否支持
结构化
流
中
的
窗口
功能?Flink
中
类似的内容如下所示: SELECT user, SUM(amount) FROM Orders GROUP BY TUMBLE(proctime, INTERVAL '1' DAY), user我在官方
结构化
流媒体
网站上找到
的
唯一SQL示例是下面的,其中没有
窗口
功能
的
示例: df.createO
浏览 24
提问于2019-03-08
得票数 0
2
回答
Spark
结构化
流媒体
中
的
滑动
窗口
scala
、
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
我有一个来自IoT设备
的
数据流,它有一个id (uuid)和一个数量(即温度)。 我想要记录最近15分钟内接收到
的
事件
的
数量,例如,
滑动
窗口
为1或5分钟。我在
Spark
中
实现了以下内容,但它会生成所有
窗口
,但我只对最近
的
一个
窗口
感兴趣(如果设备在此期间没有发送任何数据,则可能为零): import org.apache.
spark
.sql.functionsformat("memory&q
浏览 16
提问于2019-06-06
得票数 0
1
回答
如何使用
结构化
流检查点管理HDFS内存
apache-spark
、
hdfs
、
spark-structured-streaming
我有一个长期运行
的
结构化
流媒体
作业,它消耗了几个Kafka主题,并在
滑动
窗口
上聚合。我需要了解如何在HDFS
中
管理/清理检查点。作业运行良好,我能够从失败
的
步骤
中
恢复,而不会丢失数据,但是,我可以看到HDFS利用率每天都在增加。我找不到任何关于
Spark
如何管理/清理检查点
的
文档。以前,检查点存储在s3上,但由于要读/写大量
的
小文件,这被证明是非常昂贵
的</em
浏览 34
提问于2019-01-07
得票数 2
回答已采纳
1
回答
追加模式
中
结构化
流式
窗口
聚集中
的
事件
的
排序
apache-spark
、
apache-kafka
、
spark-structured-streaming
我正面临着使用
spark
的
结构化
流媒体
的
问题。问题:根据
窗口
,打印
浏览 1
提问于2020-05-06
得票数 2
2
回答
Spark
Structured Kafka偏移管理
apache-spark
、
apache-kafka
、
spark-structured-streaming
、
spark-kafka-integration
我正在研究在kafka
中
存储kafka偏移量用于
Spark
结构化
流媒体
,就像它对DStreams stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)一样,与我正在寻找
的
相同,但用于
结构化
流媒体
。它是否支持
结构化
流媒体
?如果是,我如何实现它?我知道使用.option("checkpointLocation", checkpointLocati
浏览 10
提问于2019-05-16
得票数 3
1
回答
如何将
spark
结构化
流数据写入REST API?
apache-spark
、
spark-structured-streaming
我想将我
的
spark
结构化
流式处理数据推送到REST API。有没有人可以分享一下相同
的
例子。我发现很少,但所有都与
spark
流媒体
有关,而不是
结构化
流媒体
。
浏览 14
提问于2019-01-18
得票数 1
1
回答
在
Spark
2.1
的
Spark
-kafka集成
中
,有多少个执行者被指派去听一个kafka话题?
apache-spark
、
apache-kafka
、
spark-structured-streaming
我有一个
Spark
集群,总共有17个executors。我已经将
Spark
2.1与Kafka集成在一起,并从topic
中
读取数据,例如: .readStream .options(kafka.bootstrap.servers","localhost:9092") .load 现在我想知道,
浏览 0
提问于2018-09-05
得票数 2
1
回答
从
Spark
2.2到2.3
的
结构化
流媒体
有什么不同?
spark-streaming
我在
Spark
2.3
的
发布说明中看到了
结构化
流媒体
的
公告/揭幕,但我知道它已经存在了一段时间了。由于一些依赖,我需要在系统实现中使用
Spark
2.2,但我也想开始将面向批处理
的
工作转移到流范例
中
。在没有
Spark
2.3
的
过程
中
,我是否遗漏了什么重要
的
东西,或者这仅仅是
结构化
流媒体
成为“官方”而不是实验性
的
发行版?
浏览 13
提问于2018-07-25
得票数 0
1
回答
Spark
流媒体
与
结构化
流媒体
apache-spark
、
spark-streaming
、
spark-structured-streaming
在过去
的
几个月里,我使用了相当多
的
结构化
流媒体
来实现Stream Jobs (在使用了很多Kafka之后)。在阅读了“使用Apache
Spark
进行流处理”一书后,我有了这样一个问题:有没有什么要点或用例可以让我使用
Spark
流而不是
结构化
流?我是不是应该花点时间去了解它,或者既然我已经在使用
Spark
Structured Streaming了,我应该坚持使用它,并且之前
的
API没有任何好处。将非常感谢任何意见/见解
浏览 17
提问于2020-04-06
得票数 2
1
回答
星火结构流
中
的
窗口
长度
scala
、
apache-spark
、
spark-structured-streaming
使用
Spark
DStreams,我可以指定
滑动
窗口
长度,如下所示:如何使用
结构化
流来实现这一点?
浏览 0
提问于2018-10-10
得票数 0
回答已采纳
2
回答
是否可以直接将数据从Nifi发送到
Spark
结构化
流/Storm,而不丢失数据?
apache-spark
、
apache-storm
、
apache-nifi
、
spark-structured-streaming
在我当前
的
场景
中
,Nifi收集数据,然后发送给Kafka。然后,任何
流媒体
引擎都会消耗卡夫卡
的
数据,并对其进行分析。在这种情况下,我不想在Nifi和
流媒体
引擎之间使用卡夫卡。例如,
结构化
流;如果我直接将数据从Nifi发送到
Spark
结构化
流,
Spark
收到了这些数据,但是
Spark
的
节点被关闭了。火花节点中
的
数据会发生什么变化?(
Spark
结构化</em
浏览 0
提问于2019-02-14
得票数 0
回答已采纳
1
回答
如何在
Spark
Streaming 2.3.1
中
将每条记录写入多个kafka主题?
apache-spark
、
apache-kafka
、
spark-streaming
如何在
Spark
Streaming 2.3.1
中
将每条记录写入多个kafka主题?换句话说,我有5条记录和两个输出kafka主题,我希望在两个输出主题中都有5条记录。问题没有谈到
结构化
的
流媒体
案例。我正在寻找
结构化
流媒体
的
具体。
浏览 16
提问于2018-07-23
得票数 1
1
回答
Spark
结构化
流媒体
中
的
滞后函数
apache-spark
、
spark-structured-streaming
我正在使用
Spark
2.3
结构化
流媒体
,并尝试使用“lag”功能。但是,看起来在
结构化
流
中
不支持lag。val output =
spark
.sql("SELECT temperature, time, lag(temperature, 1) OVER (ORDER BY time) AS PrevTempFROM InputTable")org.apache.
spark
.sql.AnalysisException: Non-tim
浏览 13
提问于2018-07-21
得票数 2
1
回答
如何通过
spark
结构流在Kafka
中
以编程方式创建主题
apache-spark
、
apache-kafka
、
spark-structured-streaming
我想在我
的
Spark
结构化
流媒体
应用程序
中
创建多个kafka主题运行时。我发现Java API中有各种可用
的
方法。但我找不到任何有
Spark
结构
的
流媒体
。我
的
apache
Spark
版本是2.4.4,Kafka库依赖是
spark
-sql-kafka-0-10_2.12
浏览 17
提问于2019-11-28
得票数 0
1
回答
星火结构流
窗口
()函数- GeneratedIterator增长超过64 KB
apache-spark-sql
、
apache-spark-2.0
我正在使用
Spark
结构化
流方法运行以下
滑动
窗口
SQL查询。120秒,
滑动
间隔保持为1秒,则将得到以下错误: "agg_doAggregateWithKeys$(Lorg/apache/
spark
/sql/catalyst/expressions/GeneratedClass$GeneratedIterator;)V“:类"org.apache.
spark
.sql.catalyst.exp
浏览 4
提问于2017-03-01
得票数 2
1
回答
如何处理JSON文档(来自MongoDB)并在
结构化
流
中
写入HBase?
mongodb
、
scala
、
apache-spark
、
spark-structured-streaming
我正在获取mongoDB文档,然后在处理之后,我想使用Bson.Document库将其存储到Hbase
中
在
结构化
流媒体
中
,我得到了DatasetDocument scala> val stream =
spark
.readStream.format("k
浏览 15
提问于2019-11-09
得票数 2
3
回答
Pyspark
结构化
流Kafka配置错误
apache-spark
、
pyspark
、
apache-kafka
、
apache-spark-sql
、
spark-structured-streaming
我之前已经成功地使用了pyspark for
Spark
Streaming (
Spark
2.0.2)和Kafka (0.10.1.0),但我
的
目的更适合于
结构化
流媒体
。我尝试在线使用示例:ds1 =
spark
.format("kafka").option("partition.assignment.strateg
浏览 2
提问于2017-07-07
得票数 1
2
回答
非时间戳列上
的
火花
结构化
流
窗口
scala
、
apache-spark
、
spark-streaming
、
aggregate-functions
、
spark-structured-streaming
我正在获取表单
的
数据流:|id|timestamp|val|xxx ||1 |12:15:25 | 50|...|... | 我对将
窗口
操作应用到xxx列很感兴趣,就像时间戳上
的
窗口
操作可以在星火流中使用一样,具有一定
的
窗口
大小和
滑动
步骤。在下面的带有
窗口
函数
的
groupBy
中
,lines表示
窗口
大小
浏览 0
提问于2018-09-12
得票数 7
回答已采纳
1
回答
如何使用
Spark
streaming将数据从Kafka插入到Kudu
apache-spark
、
apache-kafka
、
spark-streaming
、
apache-kudu
我有一个可以收听Kafka主题
的
Spark
流媒体
应用程序。当获得数据时,我需要对其进行处理,并将其发送到Kudu。目前,我正在使用org.apache.kudu.
spark
.kudu.KuduContext API,并对数据框调用插入操作。为了从我
的
数据创建数据框,我需要调用collect(),以便可以使用sqlContext创建数据框。 有没有一种方法可以在不调用collect()
的
情况下创建数据帧/将数据插入到Kudu
中
?我们使用
的
是<e
浏览 7
提问于2018-08-08
得票数 1
2
回答
如何对
Spark
结构化
流媒体
进行单元测试?
apache-spark
、
spark-structured-streaming
、
spark-streaming-kafka
我想了解一下
Spark
Structured Streaming
的
单元测试方面。我
的
场景是,我从Kafka获取数据,并使用
Spark
Structured Streaming使用它,并在数据上应用一些转换。 我不确定如何使用Scala和
Spark
来测试它。有人能告诉我如何使用Scala在
结构化
流媒体
中进行单元测试吗?我还是个
流媒体
新手。
浏览 3
提问于2019-07-05
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂Apache Spark
Apache Spark强势崛起
SparkStreaming源码阅读思路
什么是 Apache Spark?大数据分析平台详解
教程:Apache Spark SQL入门及实践指南!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券