腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
inferSchema=true不适用于csv
文件
读取n火花结构化
流
、
、
、
(DataSource.scala:115) at org.apache.
spark
.sql.
streaming
.DataStreamReader.load(DataStreamReader.scala:232) at org.apache.
spark
.sql.
streaming</
浏览 18
提问于2021-10-17
得票数 4
回答已采纳
1
回答
如何节流火花
流
?
、
、
这个问题脱离了我关于管理AmazonDynamoDbClient节流和重试
的
另一个问题。然而,我认为解决方案可能存在之前,我甚至到发电机电话。我
的
高级过程如下:我有一个scala应用程序,它使用Apache读取大型CSV
文件
,并对它们执行一些聚合,然后将它们写入dynamo。我将其部署到EMR以提供可伸缩性。问题是,一旦聚合完成,我们就有数以百万计
的
记录准备进入发电机,但我们有一个写容量
的
发电机。它们不需要立即插入,但是最好能控制每秒多少次,这样我们就可以根据用例对其进行微调。下面是我到目前为止所得到<e
浏览 3
提问于2017-03-28
得票数 3
1
回答
Spark
Streaming
中
的
文件
流
限制
我需要开发一个
流
应用程序,从几个来源读取一些会话日志。批处理间隔可能在5分钟左右。我
浏览 9
提问于2016-08-23
得票数 0
1
回答
如何
限制
星图操作?
我有一个S3 json数据集,它是KMS客户端加密DynamoDB
的
转储(即每条记录都是独立加密
的
KMS客户端)。我想知道是否有什么办法
限制
这些星图操作?
浏览 7
提问于2017-05-13
得票数 1
1
回答
Spark
流媒体与结构化流媒体
、
、
在过去
的
几个月里,我使用了相当多
的
结构化流媒体来实现Stream Jobs (在使用了很多Kafka之后)。在阅读了“使用Apache
Spark
进行
流
处理”一书后,我有了这样一个问题:有没有什么要点或用例可以让我使用
Spark
流
而不是结构化
流
?我是不是应该花点时间去了解它,或者既然我已经在使用
Spark
Structured
Streaming
了,我应该坚持使用它,并且之前
的
API没有任何好处。将非常感谢任何意见&
浏览 17
提问于2020-04-06
得票数 2
3
回答
使用
Spark
Streaming
时
限制
Kafka批量大小
、
、
、
是否可以
限制
Kafka消费者返回
Spark
Streaming
的
批量大小? 我之所以问这个问题,是因为我得到
的
第一批记录有上亿条记录,需要很长时间才能处理和设置检查点。
浏览 0
提问于2016-10-11
得票数 18
回答已采纳
1
回答
无法使用
Spark
Structured
Streaming
覆盖默认值"
spark
.sql.shuffle.partitions“
、
、
我想直接在代码
中
覆盖
spark
.sql.shuffle.partitions参数: val sparkSession = SparkSession .appName("
SPARK
") sparkSession.conf.set("
spark
.sql.shuffle.partitions", 2) 但此设置不会生效,因为在日志
中
我收到以下警告消息虽然在
spark
-submit外壳<em
浏览 39
提问于2021-04-30
得票数 2
1
回答
火花放电
中
StaticDataFrame与静态DataFrame
的
区别
、
我正在阅读
Spark
2.2.0文档,发现这是对Static DataFrames
的
奇怪引用 因为
Spark
2.0,DataFrames和数据集可以表示静态
的
、有界
的
数据,以及
流
的
、无界
的
数据。与静态数据集/DataFrames类似,您可以使用公共入口点SparkSession (Scala/Java/Python/R )从
流
源创建
流
DataFrames/Datas
浏览 1
提问于2017-12-24
得票数 1
回答已采纳
1
回答
以Kafka为源
的
结构化
流
中
的
JSON模式推理
、
为了实现这一点,我提供了一个硬编码
的
JSON模式作为StructType。我正在寻找一种在流过程
中
动态推断主题模式
的
好方法。这是我
的
代码:(这是Kotlin,而不是通常使用
的
Scala) .readStream() .option("kafka.bootstrap.serversProcessingTime("25 seconds")) .start("
浏览 2
提问于2020-10-21
得票数 1
回答已采纳
1
回答
在卡夫卡星火
流
的
情况下,
spark
.
streaming
.kafka.maxRatePerPartition和
spark
.
streaming
.backpressure.enabled有什么关系?
、
、
、
、
(read_kafka_data.py)
中
读取来自以下主题
的
数据: schema = StructType([StructField("col1", StringType("
spark
.
streaming
.backpressure.enabled",”true”) 启用或禁用火花
流
的
内部背压机制(自1.5起)。这使得火花
流
能够根
浏览 0
提问于2021-09-13
得票数 4
回答已采纳
2
回答
无法使用
Spark
结构化流在Parquet
文件
中
写入数据
、
、
我有一个星火结构
的
流
: .readStream .option("kafka.bootstrap.serverswriteStream .format("parquet")但是在data
文件
夹
中
浏览 5
提问于2017-05-25
得票数 4
回答已采纳
1
回答
重新启动火花结构化
流
作业消耗数百万卡夫卡消息和死亡
、
、
、
我们有一个在
Spark
2.3.3上运行
的
星火
流
应用程序 kafka_stream =
spark
\ .format("kafka我们认为可能有一种方法可以用一些参数
限制
第一批
的
大小,但是我们没有发现任何有帮助
的
东西。我们试过:
spark
.
streaming
.kafka.maxRatePerPartition=1000,
s
浏览 1
提问于2019-04-02
得票数 10
回答已采纳
2
回答
Spark
.
Streaming
.backpression.*属性是否适用于
Spark
结构
流
?
、
、
、
我
的
理解是
Spark
structured
Streaming
是建立在
Spark
SQL之上
的
,而不是
Spark
streaming
。因此,下面的问题是,应用于
spark
流
的
属性是否也适用于
spark
结构化
流
,例如:
spark
.
streaming
.backpressure.initialRate
spark
.
strea
浏览 1
提问于2018-09-03
得票数 1
2
回答
火花放电
中
spark
.
streaming
.kafka.maxRatePerPartition
的
风暴模拟
、
、
火花
流
中有
spark
.
streaming
.kafka.maxRatePerPartition属性,它
限制
每秒从Apache读取消息
的
数量。斯托姆也有类似的财产吗?
浏览 2
提问于2016-06-10
得票数 0
回答已采纳
2
回答
如何摆脱org.apache.kafka.clients.consumer.KafkaConsumer.subscribe :火花
流
+卡夫卡
中
的
NoSuchMethodError错误
、
、
、
、
我想使用星火
流
,并连接它与卡夫卡。然而,我仍然得到了NoSuchMethodError: NoSuchMethodError错误,现在我只是不知道下一步该做什么。我
的
设置:Scala 2.11火花2.2.1我甚至不能运行示例脚本$
spark
$sql$execution$
streaming
$StreamExecution$$runBatches(StreamExecution.scala:2
浏览 1
提问于2018-02-09
得票数 3
1
回答
目录上
的
FileWatcher
、
我有一个
Spark
/Scala应用程序,这里我
的
需求是在一个目录
中
查找一个
文件
并对其进行处理,最后清理该目录。难道不可以在
spark
应用程序
中
这样做吗- When it finds the file continue the process我们目前使用一个外部应用程序来执行此file-watching process操作,因此为了删除该third-party application上
的
浏览 0
提问于2019-03-21
得票数 0
1
回答
Spark
Streaming
Kafka直接消费者消费速度下降
、
、
、
、
我使用在亚马逊网络服务
中
运行
的
spark
独立集群(
spark
和
spark
-
streaming
-kafka版本1.6.1),并使用检查点目录StreamingContext.getOrCreate(config.sparkConfig.checkpointDir, createStreamingContex
浏览 2
提问于2016-12-19
得票数 2
1
回答
Nifi和
Spark
集成
、
、
我想在用Scala编写
的
Nifi自定义处理器
中
创建
Spark
会话,到目前为止,我可以在scala项目上创建
spark
会话,但是当我在nifi自定义处理器
的
OnTrigger方法
中
添加这个
spark
会话时,
spark
会话永远不会创建,有什么方法可以实现这一点吗?到目前为止,我已经导入了
spark
-core和
spark
-sql库,欢迎任何反馈。
浏览 4
提问于2021-03-10
得票数 0
1
回答
控制Apache束/火花流管道
中
的
最小
文件
大小
我有一条从卡夫卡读到GCP
的
管道。档案记录太少了。我想创建更大
的
文件
。到目前为止,这是我如何配置梁(至少我认为是一个相关
的
参数)。我
的
问题是如何控制从束流管道产生
的
文件
的
大小?numShards: 0 checkpointDurationMillis: 30000以下是与
流
相关
的
火花配置参数=120
浏览 3
提问于2021-05-26
得票数 0
回答已采纳
2
回答
数据源io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持
流
写入。
、
、
、
我试图读取卡夫卡
的
数据,并将其上传到格林梅利
的
数据库使用火花。我使用
的
是格林梅-火花连接器,但我正在获取数据源,io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持
流
写入。是否格林梅源不支持流媒体数据?我可以在网站上看到“连续ETL管道(
流
)”。我曾尝试将数据源命名为“绿梅”,并将"io.pivotal.greenplum.
spark
.GreenplumRelationProvider“转换为.form
浏览 0
提问于2019-04-04
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
云直播
活动推荐
运营活动
广告
关闭
领券