腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
使用
DataFrame
的
数据库
中
,
spark
streaming
中
接收
的
输入
数据
全部
为
小写
、
、
、
我
的
spark
streaming
应用程序
使用
aws kenisis
中
的
数据
并部署
在
databricks
中
。我
使用
org.apache.
spark
.sql.Row.mkString方法来
使用
数据
,整个
数据
都是以
小写
形式
接收
的
。实际
输入
具有驼峰大
小写
字段名称和
浏览 10
提问于2019-07-18
得票数 0
回答已采纳
2
回答
数据
源io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。
、
、
、
我试图读取卡夫卡
的
数据
,并将其上传到格林梅利
的
数据库
使用
火花。我
使用
的
是格林梅-火花连接器,但我正在获取
数据
源,io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。是否格林梅源不支持流媒体
数据
?我曾尝试将
数据
源命名为“绿梅”,并将"io.pivotal.greenplum.
spark
.GreenplumRe
浏览 0
提问于2019-04-04
得票数 0
回答已采纳
2
回答
如何将
数据
帧
中
的
数据
存储
在
变量
中
,以用作cassandra
中
select
的
参数?
、
、
、
、
我有一个
Spark
结构
的
流媒体应用程序。应用程序从kafka
接收
数据
,并且应该
使用
这些值作为参数来处理来自cassandra
数据库
的
数据
。我
的
问题是,我如何
使用
输入
数据
帧(kafka)
中
的
数据
,作为cassandra
中
的
"where“参数"select”,而不会出现以下
浏览 25
提问于2021-05-24
得票数 0
回答已采纳
3
回答
持续信息JobScheduler:59 -
在
我
的
Spark
独立集群
中
添加作业时间*毫秒
、
、
我们正在
使用
具有8核和32 We
的
Spark
独立集群,具有相同配置
的
3个节点集群。 有时批处理流在不到1秒
的
时间内完成。
在
某些情况下,控制台中会出现以下日志,该时间超过10秒。
浏览 0
提问于2016-03-29
得票数 3
1
回答
火花放电
中
StaticDataFrame与静态
DataFrame
的
区别
、
我正在阅读
Spark
2.2.0文档,发现这是对Static DataFrames
的
奇怪引用 因为
Spark
2.0,DataFrames和
数据
集可以表示静态
的
、有界
的
数据
,以及流
的
、无界
的
数据
。与静态
数据
集/DataFrames类似,您可以
使用
公共入口点SparkSession (Scala/Java/Python/R )从流源创建流Dat
浏览 1
提问于2017-12-24
得票数 1
回答已采纳
2
回答
火花结构流和过滤器
星星之火2.1,结构化流与原始计数(*),和(字段)是工作正常之上
的
地板文件,但过滤不起作用。), StructField(fieldname,StringType,true), StructField(valuestr,StringType,true))aggDF: org.apache.
spark
.sql.
DataFrame
=
浏览 0
提问于2017-07-31
得票数 6
回答已采纳
3
回答
使用
Spark
Streaming
时限制Kafka批量大小
、
、
、
是否可以限制Kafka消费者返回
Spark
Streaming
的
批量大小? 我之所以问这个问题,是因为我得到
的
第一批记录有上亿条记录,需要很长时间才能处理和设置检查点。
浏览 0
提问于2016-10-11
得票数 18
回答已采纳
1
回答
Spark
Streaming
在哪里运行?
、
据我所知,
Spark
可以
使用
Spark
Streaming
分析流。Kafka可以从多个来源
接收
数据
。我不明白
的
是,如果我有一个Kafka集群从多个来源
接收
数据
,
数据
会被发送到一个运行
Spark
Streaming
的
数据库
吗?或者
Spark
Streaming
是否
在
应用服务器上运行?
浏览 5
提问于2017-01-25
得票数 0
回答已采纳
2
回答
如何显示一个流
DataFrame
(AnalysisException显示失败)?
、
、
、
所以我
在
Kafka主题中有一些
数据
,我把这些流
数据
放到一个
DataFrame
中
。我想要显示
DataFrame
中
的
数据
:from kafka import KafkaProducer from pyspark.sql import SparkSession,
DataFrame
:
spark
-sql-kafka-0-10_2.11:2.2.0,org.apache.
spar
浏览 3
提问于2017-07-14
得票数 5
回答已采纳
1
回答
如何节流火花流?
、
、
这个问题脱离了我关于管理AmazonDynamoDbClient节流和重试
的
另一个问题。然而,我认为解决方案可能存在之前,我甚至到发电机电话。我
的
高级过程如下:我有一个scala应用程序,它
使用
Apache读取大型CSV文件,并对它们执行一些聚合,然后将它们写入dynamo。我将其部署到EMR以提供可伸缩性。问题是,一旦聚合完成,我们就有数以百万计
的
记录准备进入发电机,但我们有一个写容量
的
发电机。它们不需要立即插入,但是最好能控制每秒多少次,这样我们就可以根据用例对其进行微调。下面是我到目前为止所得到<e
浏览 3
提问于2017-03-28
得票数 3
1
回答
来自单个JavaStreamingContext(JavaReceiverInputDStream)
的
多个JavaPairDStream
、
我有一个队列,我正在
使用
Spark
Streaming
从队列
中
读取
数据
。我需要将这些
数据
(
在
一些计算之后)写入2个不同
的
表(两个表
的
计算是不同
的
)。我注意到我
的
代码只执行第一个JavaPairDStream,而不执行另一个。我
在
两个PairStreams上都有输出操作。我还注意到,如果队列
中
的
数据
很小-比方说只有一条消息,那么它
浏览 0
提问于2016-09-08
得票数 0
4
回答
如何读取一次流
数据
集并输出到多个
接收
器?
、
我有一个
Spark
Structured
Streaming
Job,它从S3读取
数据
,转换
数据
,然后将其存储到一个S3
接收
器和一个Elasticsearch
接收
器。当这样做时,似乎
Spark
从S3源读取
数据
两次,每个
接收
器一次。 有没有一种更有效
的
方法来写入同一管道
中
的
多个
接收
器?
浏览 1
提问于2017-09-19
得票数 14
1
回答
使用
spark
和
spark
streaming
构建服务
、
、
、
我读过一些关于
spark
streaming
的
文章,我想知道是否有可能
使用
rabbitmq作为代理从自定义来源流式传输
数据
,并通过
spark
流提供这些
数据
,
Spark
的
机器学习和图形处理算法将在这些
数据
上执行,并将其发送到其他文件系统/
数据库
/仪表板或客户
接收
器。附注:我用python编写代码,我没有任何
使用
spark
浏览 5
提问于2020-09-02
得票数 0
2
回答
用消防软管从分区文件夹
中
读取JSON
、
、
、
Kinesis将文件
的
持久性(
在
本例
中
为时间序列JSON )管理
为
一个文件夹层次结构,该层次结构由YYYY/MM/DD/HH (直到24小时编号)...great划分。那么我如何
使用
Spark
2.0来读取这些嵌套
的
子文件夹,并从所有的叶json文件
中
创建一个静态
的
Dataframe
呢?
数据
阅读器有“选项”吗?我
的
下一个目标是成为一个流DF,火龙将新文件
浏览 4
提问于2016-10-30
得票数 8
1
回答
Spark
Streaming
MYsql
、
我想获取
数据
行,这是插入到外部mysql
数据库
后每2分钟。我想做这件事与火花流。但是
在
程序运行一次time.So后,我得到了这个错误,它第一次给了我
数据
,但在那之后,我得到了以下错误,程序终止了16/08/02 11:15:44 INFO JdbcRDD: closedat org.apache.
spark
.
streaming
.StreamingContext.start(StreamingContext.scala:594)
浏览 16
提问于2016-08-03
得票数 1
1
回答
我可以
使用
Pyspark更新远程Mysql DB
中
的
表
中
的
值吗?
、
、
、
、
我正在
使用
kafka从远程mysql
数据库
读取
数据
,并将其传递到Pyspark
streaming
以应用情感分析,然后用该值更新mysql
数据库
中
的
列。这是最好
的
情况,还是有比这更有效
的
架构?
浏览 1
提问于2019-11-20
得票数 0
2
回答
每批大小
的
火花流调整记录
的
数量不起作用?
、
、
我
的
星火流应用程序是从卡夫卡读取
使用
DStream方法,我试图获得批量大小,以处理60,000条消息
在
10秒内。我所做
的
, 创建StreamingContext时,将批处理持续时间设置
为
1
浏览 0
提问于2019-07-08
得票数 2
回答已采纳
1
回答
火花结构化流MemoryStream报告当用于自定义水槽时没有选择
的
数据
、
、
、
我试图编写简单
的
测试用例
使用
火花结构流。代码是受github上
的
启发
的
。
的
测试用例
中
运行它def demoCustomSink: Unit = { val doubled = input.toDS:43) at org.apache.
spark
.sql.execution.
streaming
.StreamExecution.org$apache$
spark<
浏览 0
提问于2016-10-12
得票数 1
1
回答
无
数据
时停止提交作业
、
、
、
我
使用
spark
streaming
通过自定义
接收
器从mq
中
的
队列
中
获取
数据
。Javastreaming上下文持续时间
为
10秒。并且为来自队列
的
输入
定义了一个任务。
在
spark
UI
中
的
事件时间线
中
,我看到每隔10秒就会提交一个作业,即使没有来自
接收
方
的
数据
浏览 2
提问于2018-03-15
得票数 0
2
回答
如何对
Spark
结构化流媒体进行单元测试?
、
、
我想了解一下
Spark
Structured
Streaming
的
单元测试方面。我
的
场景是,我从Kafka获取
数据
,并
使用
Spark
Structured
Streaming
使用
它,并在
数据
上应用一些转换。 我不确定如何
使用
Scala和
Spark
来测试它。有人能告诉我如何
使用
Scala
在
结构化流媒体中进行单元测试吗?我还是个流媒体新手。
浏览 3
提问于2019-07-05
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券