腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
S3前缀中的回滚
写入
失败-通过
Spark
进行分区
apache-spark
、
amazon-s3
、
amazon-emr
我们通过EMR使用Apache
Spark
(2.4.5)作业,它读取存储桶前缀{ S3 }/{ prefix }/*.json,执行一些数据消息,然后在覆盖模式下通过
Spark
作业save()将其重写回相同的我的问题是,如果
Spark
作业在将数据重写到S3前缀分区时失败,那么我们是否有办法以任何原子/事务方式恢复该前缀分区中的数据。
spark
/EMR/S3中的任何/所有这些都支持它吗?
浏览 11
提问于2020-10-02
得票数 0
1
回答
Spark
写入
多个
文件
scala
、
apache-spark
我有两个过滤条件不同的数据帧,我需要将这两个数据帧
写入
hdfs相同的
文件
夹。我应该如何在一个hugs
文件
夹中同时
写入
两个数据帧。
浏览 5
提问于2019-10-02
得票数 1
2
回答
如何在不在pyspark中创建
文件
夹的情况下
写入
CSV
文件
?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
在
写入
CSV
文件
时,自动创建
文件
夹,然后创建具有隐名的csv
文件
,如何在pyspark中创建具有任何特定名称的CSV,而不是在pandas中创建
文件
夹。
浏览 7
提问于2021-11-09
得票数 0
1
回答
将数据帧
写入
现有csv
文件
scala
scala
、
dataframe
、
csv
、
apache-spark
----++---------------------------+-------+ finalEmojiAnalyzedDataFrame.write.format("com.springml.
spark
.sftpException in thread &qu
浏览 20
提问于2021-02-25
得票数 0
1
回答
更改
spark
_temporary目录路径,避免删除parquets
scala
、
hadoop
、
spark2.4.4
当两个或
多个
Spark
作业具有相同的输出目录时,相互删除
文件
将不可避免。我正在使用
spark
2.4.4在append模式下
写入
一个数据帧,我想在
spark
的tmp目录中添加一个时间戳,以避免这些删除。示例:使用其他数据调用相同的
spark
作业,并在hdfs:/outputFil/0/tm/
浏览 20
提问于2020-03-19
得票数 1
1
回答
在保存到分区拼花
文件
时实现并发性
scala
、
apache-spark
、
parquet
当使用dataframe向parquet
写入
partitionBy时:我期望所编写的每个分区都由一个单独的任务独立完成一个工作人员正在循环遍历每个分区并依次写出.parquet
文件
。为什么会出现这种情况--在这个
spark
.write.parquet操作中是否存在强制并发的方法?
浏览 0
提问于2018-06-26
得票数 5
回答已采纳
2
回答
Spark
DataFrameWriter ignoreNullFields不工作
apache-spark
、
apache-spark-sql
我有一个包含
多个
具有不同模式的空值的DataFrame+----+----+----+----++----+----+----+----++----+----+----+----+但即使我使用
spark
.write.option("ignoreNu
浏览 50
提问于2020-02-27
得票数 3
1
回答
使用scala和
spark
组合csv
文件
时,头写了多次
scala
、
apache-spark
目前,我正在尝试将
多个
csv
文件
合并到一个
文件
中,
文件
头完全相同,但数据不同,它们被命名为- data__1,data__2。 import org.apache.
spark
.sql.types._ importorg.apache.
spark
.sql.,但是如果我保留.option(&
浏览 3
提问于2022-06-13
得票数 0
1
回答
如何在databricks中使用pyspark将所有行数据从
spark
dataframe获取到
文件
python
、
pyspark
、
apache-spark-sql
、
azure-databricks
我正在尝试从
spark
dataframe中获取所有行数据到databricks中的一个
文件
中。我能够用很少的计数将df数据写到
文件
中。假设我在df中得到的计数是100,那么在
文件
中它的计数是50,所以它跳过了data.How。我可以在不跳过数据的情况下,将完成的数据从dataframe加载到
文件
中。我已经创建了一个udf,udf将打开
文件
并将数据附加到其中。我在
spark
sql df中调用了该udf。 有人能在这个问题上帮我吗?
浏览 1
提问于2020-09-30
得票数 0
1
回答
限制从Apache
Spark
到ES的
写入
apache-spark
、
elasticsearch
、
throttling
在我们的项目中,我们使用Apache
Spark
来
写入
ES。我们运行
多个
并行
写入
ES的
spark
作业。我们处理的数据量太大,导致
写入
吞吐量高达约5K
写入
/秒。我们希望限制ES
写入
,以便将其降低到500到1000
写入
/秒的范围。我们遇到过像es.batch.size.bytes和es.batch.size.entries这样的ES配置,但我们不确定这些配置如何与Apache
Spark
一起工作。
浏览 15
提问于2020-07-20
得票数 1
1
回答
与星火历史服务器正在运行的群集通信
apache-spark
我有一个可以工作的
Spark
集群,其中一个主节点和一些工作节点运行在Kubernetes上。此群集已用于
多个
星火提交作业,并已开始运行。=true
spark
.history.fs.logDirectory=...
spark
.hadoop.fs.s3a.secret.key服务器正在将日志
写入
外部DB (minIO使用s3a协议)。 现在,每当我提交火花
浏览 2
提问于2021-09-16
得票数 1
回答已采纳
2
回答
写入
HDFS或S3时是否锁定
文件
?
apache-spark
、
apache-spark-sql
我有一个S3位置,目录结构如下,上面创建了一个Hive表:假设我有一个
Spark
程序,它使用下面的代码行将数据
写入
上面的表位置,跨越
多个
分区: Df.write.partitionBy("orderdate").parquet("s3://<Mybucket>/<Table Name>
浏览 0
提问于2018-03-19
得票数 11
1
回答
Delta Lake将
多个
文件
压缩为单个
文件
databricks
、
delta-lake
我正在读取kafka数据,并使用delta lake格式将其
写入
为流。Delta lake在从kafka进行流式
写入
的过程中创建了许多
文件
,我觉得kafka是hdfs
文件
系统的核心。我已经尝试过将
多个
文件
压缩为单个
文件
。val
spark
= SparkSession.builder .appName("
spark
session example&quo
浏览 16
提问于2019-10-13
得票数 4
回答已采纳
2
回答
触发本地rdd
写入
到本地Cassandra DB
apache-spark
、
cassandra
、
spark-cassandra-connector
、
dse
我有一个DSE集群,集群中的每个节点都在运行
spark
和Cassandra。 当我从Cassandra加载数据到
spark
rdd并在Rdd上执行一些操作时,我知道数据将分布到
多个
节点中。如果我执行普通的rdd收集,来自
spark
节点的所有数据将被合并,并返回到带有驱动程序的节点。我不希望发生这种情况,因为从节点返回到驱动程序节点的数据可能需要很长时间,我希望数据直接保存到本地节点,以避免数据跨
spark
节点移动。
浏览 3
提问于2020-10-20
得票数 1
1
回答
使用R sparklyr将
多个
Spark
镶木
文件
加载到
Spark
表中?
r
、
apache-spark
、
sparklyr
我正在尝试使用R sparklyr将
多个
拼图
文件
加载到一个
Spark
表中。附加的代码显示了我是如何做到这一点的。
spark
_load_data <- function(db_conn, test_period) library(DBI) overwrite <- TRUE"pcidata" pq_path <- paste0("s3://<path>/PciData/trans
浏览 0
提问于2019-08-17
得票数 0
1
回答
PySpark S3
文件
读取性能注意事项
apache-spark
、
amazon-s3
、
pyspark
我只是想知道我应该将多大的
文件
写入
S3,这样
Spark
就可以读取这些
文件
并进行处理。有没有读神的链接? 谢谢
浏览 1
提问于2021-04-05
得票数 0
1
回答
使用Apache
写入
HDFS时的输出序列
scala
、
hadoop
、
apache-spark
、
rdd
我正在进行apache中的一个项目,要求将处理后的输出从
Spark
写入
特定的格式,如Header -> Data -> Trailer。为了
写入
HDFS,我使用.saveAsHadoopFile方法,并使用密钥作为
文件
名将数据
写入
多个
文件
。但是问题是序列的数据是没有维护的,
文件
都是用Data->Header->Trailer写成的,或者是三个不同的组合。在RDD转换中,我有遗漏什么吗?
浏览 3
提问于2016-02-25
得票数 0
回答已采纳
2
回答
如何用pandas读取
Spark
写的
文件
?
python
、
pandas
、
apache-spark
、
parquet
当
Spark
将dateframe数据
写入
拼图
文件
时,
Spark
将创建一个包含
多个
独立拼图
文件
的目录。("dir/to/save/to") IsADirectoryError: [Errno 21] Is a directory: 如何通过简单的方法解决这个问题,两个代码示例可以使用相同的
文件
路径
浏览 30
提问于2019-08-07
得票数 1
回答已采纳
2
回答
并行
写入
多个
拼图
文件
java
、
apache-spark
我有一个很大的
Spark
DataSet (Java) &我需要应用过滤器来获得
多个
数据集,并将每个数据集
写入
拼花地板。 Java
Spark
是否提供了可以并行编写所有拼图
文件
的功能?
浏览 19
提问于2020-06-04
得票数 0
回答已采纳
1
回答
从
Spark
流作业
写入
多个
ES接收器
apache-spark
、
elasticsearch
我正在使用
Spark
streaming来处理Kafka队列中的大量数据,我需要将结果
写入
设置的两个ES集群。我在我的项目中使用了"org.elasticsearch.elasticsearch-
spark
-XX“,并且能够通过使用EsSpark.saveJsonToEs()方法
写入
一个ES集群,该方法在内部从不可变的
spark
上下文中获取ES的特定属性。因此,如果
spark
上下文是不可变的,我如何在运行时更改属性并将结果
写入
多个
ES集群
浏览 2
提问于2020-01-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Go语言文件写入
PHP 文件创建/写入
python文件操作全套讲解(二):写入文件
MIPCMS 远程写入配置文件Getshell
python笔记19-yaml文件写入
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券