腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
异常:只
能在
流式
数据
集
/DataFrame上
调用
“
writeStream
”
scala
、
apache-spark
、
spark-streaming
正在尝试创建
spark
数据
流
writeStream
函数的测试,如下所示:session").getOrCreate() val lakeDF =
spark
.createDF(List(("hi")), List(("word", StringType,t
浏览 0
提问于2018-07-19
得票数 8
1
回答
只
能在
流式
数据
集
/
数据
帧
上
调用
Spark
:
writeStream
apache-spark
、
elasticsearch
、
pyspark
、
apache-kafka
、
spark-structured-streaming
我正在尝试从我的Kafka集群中检索tweet到
Spark
Streaming,在
Spark
Streaming中我执行一些分析,将它们存储在ElasticSearch索引中。Jupyter环境中运行以下代码,将流
数据
帧
写入Elastic Search。df.withColumn("Sentiment",lit(udf_func(df.text))) df.
writeStream
.
浏览 82
提问于2020-11-04
得票数 2
2
回答
如何将
数据
帧
中的
数据
存储在变量中,以用作cassandra中select的参数?
apache-spark
、
cassandra
、
apache-spark-sql
、
spark-structured-streaming
、
spark-cassandra-connector
我有一个
Spark
结构的流媒体应用程序。应用程序从kafka接收
数据
,并且应该使用这些值作为参数来处理来自cassandra
数据
库的
数据
。我的问题是,我如何使用输入
数据
帧
(kafka)中的
数据
,作为cassandra中的"where“参数"select”,而不会出现以下错误: Exception in thread "main" org.apache.
spark
.sql.AnalysisException:
浏览 25
提问于2021-05-24
得票数 0
回答已采纳
1
回答
如何使用
writeStream
将火花流传递给卡夫卡主题
apache-kafka
、
spark-streaming
、
spark-structured-streaming
kafka.bootstrap.servers", "host1:port1,host2:port2") .start()我已经做了: 1.从twitter
浏览 2
提问于2019-11-13
得票数 1
回答已采纳
2
回答
向
流式
数据
帧
添加ROW_NUMBER列
sql
、
apache-spark-sql
、
sql-order-by
、
spark-streaming
、
row-number
我是
Spark
和SQL的新手。我正在尝试向我的df中添加一列(然后将其保存到Delta表中),该列为每条记录/行提供唯一的id,并在每次更新特定记录时递增该列。
浏览 1
提问于2020-08-19
得票数 3
4
回答
如何在结构化
流式
传输中将
数据
帧
转换为rdds?
apache-spark
、
spark-streaming
我使用pyspark流从kafka获取
数据
,结果是一个dataframe,当我将dataframe转换为rdd时,它出错了: Traceback (most recent call last):df = df.rdd.map(lambda x: x.value.split(" ")).toDF()pyspark.sql.utils.Analys
浏览 56
提问于2020-01-06
得票数 3
1
回答
旋转一个流
数据
帧
pyspark
scala
、
apache-spark
、
pyspark
、
pivot
、
streaming
我有一个来自kafka的
流式
数据
帧
,我需要旋转两列。.pivot('Var')\ .
writeStream
.format("memory") \ .start() <em
浏览 16
提问于2021-07-14
得票数 1
回答已采纳
1
回答
用火花流将
数据
加载到azure
数据
库中
pyspark
、
spark-streaming
、
azure-blob-storage
、
databricks
、
azure-databricks
我正在Azure
数据
库中尝试这段代码:df =
spark
.readStream.format("eventhubswindow(df.enqueuedTime, "1 hour&
浏览 1
提问于2020-05-13
得票数 0
1
回答
如何在
spark
流作业中查找
数据
帧
的大小
python
、
scala
、
apache-spark
、
spark-structured-streaming
我正在尝试在每批
spark
streaming作业中查找
数据
帧
的大小。我能够成功地在批处理作业中找到大小,但当涉及到流时,我无法做到这一点。我一直在
数据
库
上
开发
spark
应用程序,并尝试在
流式
作业中使用'df.queryExecution.optimizedPlan.stats.sizeInBytes‘。但我得到了以下异常:对流来源的查询必须使用
writeStream
.start();; 我尝试过将'df.queryExecutio
浏览 26
提问于2019-01-18
得票数 0
2
回答
消除流DataFrame中的重复项(重复
数据
消除)
scala
、
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
、
delta-lake
我有一个
Spark
流媒体处理器。
数据
帧
dfNewExceptions有重复项(由“ExceptionId”复制)。由于这是一个流
数据
集
,因此以下查询失败: val dfNewUniqueExceptions = dfNewExceptions.sort(desc("LastUpdateTime"))dfNewExceptionCore = dfNewUniqueExceptions.select("ExceptionId", "LastUpdateTime
浏览 7
提问于2021-09-30
得票数 1
2
回答
如何在结构化流中创建列的所有值的列表?
scala
、
apache-spark
、
elasticsearch
、
spark-structured-streaming
我通过
spark
的readStream方法获得所有这些记录。这个dataframe有一个名为"key“的列。我需要字符串(set(该列‘ElasticSearch’中的所有值))才
能在
查询中使用这个字符串。编辑:
数据
名:| key| ex|new column| +-------+--
浏览 0
提问于2019-08-30
得票数 4
1
回答
当一个
数据
集
涉及聚合时如何连接两个流
数据
集
scala
、
apache-spark
、
apache-spark-sql
、
spark-streaming
、
spark-structured-streaming
我在下面的代码片段中出现了错误-.add("org",StringType).add("booked_at",TimestampType) 创建流源<em
浏览 3
提问于2020-02-18
得票数 0
1
回答
将流
数据
集
追加到
Spark
中的批处理
数据
集
apache-spark
、
apache-spark-sql
、
apache-spark-2.0
、
spark-structured-streaming
我们在
Spark
中有一个用例,我们希望将历史
数据
从
数据
库加载到
Spark
,并不断向
Spark
添加新的流
数据
,然后我们可以对整个最新
数据
集
进行分析。据我所知,
Spark
SQL和
Spark
Streaming都不能将历史
数据
与流
数据
结合起来。然后我发现
Spark
2.0中的结构化流媒体似乎就是为这个问题而构建的。但经过一番试验,我还是搞不明白。data source
浏览 0
提问于2016-10-03
得票数 3
1
回答
Spark
Structured来自Cassandra
apache-spark
、
cassandra
我使用结构化
数据
流从Kafka
流式
传输
数据
.readStream .option("kafka.bootstrap.servers]("analytics", "nlp2", SomeColumns("url", "ner", "sentiment"), SomeColumns("url&qu
浏览 0
提问于2018-11-16
得票数 1
1
回答
Spark
dataframe访问Kafka源后失去流媒体能力
apache-spark
、
pyspark
、
apache-kafka
、
apache-spark-sql
、
spark-streaming
我使用
Spark
2.4.3和Kafka 2.3.0。我想用从Kafka到
Spark
的
数据
做
Spark
结构化流媒体。一般来说,它可以在测试模式下工作,但由于我必须对
数据
进行一些处理(并且不知道另一种方法),
Spark
数据
帧
不再具有
流式
传输功能。 #!STRING)") # Do query on the converte
浏览 22
提问于2019-09-10
得票数 0
回答已采纳
1
回答
如何从Kafka访问记录中的文件路径并从创建
数据
集
?
java
、
apache-spark
、
apache-kafka
、
spark-structured-streaming
我正在接收Kafka消息
上
的文件路径。我需要将这个文件加载到
spark
RDD中,对其进行处理,然后将其转储到HDFS。我不
能在
Kafka消息
数据
集
上
运行map函数。由于sparkContext在worker
上
不可用,因此出现NPE错误。我不
能在
Kafka消息
数据
集
上
运行for
浏览 0
提问于2017-09-26
得票数 4
1
回答
在
Spark
结构化流中指定"basePath“选项
java
、
apache-spark
、
spark-streaming
在
Spark
Structured Streaming (Java语言)中读取分区
数据
时,是否可以设置basePath选项?我只想加载特定分区中的
数据
,比如basepath/x=1/,但我还希望将x作为列加载。我为非
流式
数据
帧
设置basePath的方式似乎不起作用。+---+---++---+---+| 3| 4
浏览 56
提问于2018-03-01
得票数 6
1
回答
如何在zeppelin中自动更新结构化流查询的%
spark
.sql结果
apache-spark-sql
、
spark-streaming
、
visualization
、
apache-zeppelin
我正在对来自kafka的
数据
运行结构化
流式
处理(
spark
2.1.0 with zeppelin 0.7),并尝试使用
spark
.sql可视化
流式
处理结果%
spark
2 .builder() .master("yarn")groupB
浏览 4
提问于2017-07-13
得票数 6
1
回答
如何使用
Spark
-streaming进行实时日志分析??(我附加架构镜像)
apache-spark
、
pyspark
、
spark-streaming
Spark
streaming应用程序实时接收来自大量IoT设备的
数据
。但它们都是少量的
数据
。整体流程看起来像是-> Iot -> Kafka(1个主题/所有
数据
) ->火花流(过滤错误日志) -> DB(保存) ->警报屏幕 有没有使用
spark
或python进行实时日志分析的好方法?
浏览 13
提问于2020-11-19
得票数 0
回答已采纳
1
回答
只显示前20行
scala
、
apache-spark
、
apache-kafka-streams
我有一个
流式
数据
集
。它从卡夫卡流中读取并写入控制台。val outputStream = inputStream.
writeStream
.format("console") .option("checkpointLocation", "checkpoint") outputStream.star
浏览 2
提问于2022-05-06
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Kafka进阶
什么是 Apache Spark?大数据分析平台详解
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
基于Spark的大规模推荐系统特征工程
大数据技术,Spark详细介绍,Spark和Hadoop的区别
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券