腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在启用了推测的情况下,如何在
Spark
中管理
写入
?
apache-spark
、
apache-spark-2.0
、
speculative-execution
假设我有一个
Spark
2.x应用程序,它启用了猜测(
spark
.speculation=true),它将数据
写入
到HDFS上的特定位置。现在,如果任务(将数据
写入
HDFS)需要很长时间,
Spark
将在另一个执行器上创建
同一
任务的副本,并且这两个作业将并行运行。任何帮助都将不胜感激。 谢谢
浏览 9
提问于2020-12-11
得票数 0
2
回答
在
Spark
Submit over Yarn Cluster中手动设置驱动程序
apache-spark
、
pyspark
、
hadoop-yarn
我注意到,当我使用yarn在
spark
submit中启动一个作业时,会随机设置驱动程序和执行器节点。是否可以手动设置,以便在收集数据并将其
写入
文件
时,每次都可以在
同一
节点上
写入
数据?到目前为止,我尝试使用的参数是:
spark
.yarn.am.port <driver-ip-address>和
spark
.driver.hostname <driver-ip-address> 谢谢!
浏览 0
提问于2016-12-07
得票数 1
2
回答
2火花作业能同时使用单个HDFS/S3存储器吗?
apache-spark
、
amazon-s3
、
hadoop
其中一项工作将向S3/HDFS
写入
最新数据,而另一项工作将读取该数据以及来自另一源的输入数据以进行分析。
浏览 3
提问于2022-01-06
得票数 0
回答已采纳
2
回答
在
spark
结构化流中
写入
来自kafka / json数据源的损坏数据
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
在
spark
批处理作业中,我通常会将JSON数据源
写入
到一个
文件
中,并且可以使用DataFrame阅读器的损坏列功能将损坏的数据写出到不同的位置,并使用另一个阅读器从
同一
作业中
写入
有效数据。(参见参考文献中的注释)那么我如何使用SSS将与我的模式不匹配的损坏数据和可能无效的JSON
写入
另一个位置? 最后,在批处理作业中,
同一
个作业可以同时
写入
两个数据帧。但是
Spark
Structured需要对多个接收器进行特殊处理。然后在
S
浏览 34
提问于2018-12-27
得票数 1
回答已采纳
1
回答
与星火历史服务器正在运行的群集通信
apache-spark
=true
spark
.history.fs.logDirectory=...
spark
.hadoop.fs.s3a.secret.key=...
spark
.hadoop.fs.s3a.path.style.access=true 这是在集群开始运作后一段时间内完成的。服务器正在将日志
写入</em
浏览 2
提问于2021-09-16
得票数 1
回答已采纳
2
回答
触发本地rdd
写入
到本地Cassandra DB
apache-spark
、
cassandra
、
spark-cassandra-connector
、
dse
我有一个DSE集群,集群中的每个节点都在运行
spark
和Cassandra。 当我从Cassandra加载数据到
spark
rdd并在Rdd上执行一些操作时,我知道数据将分布到多个节点中。如果我执行普通的rdd收集,来自
spark
节点的所有数据将被合并,并返回到带有驱动程序的节点。我不希望发生这种情况,因为从节点返回到驱动程序节点的数据可能需要很长时间,我希望数据直接保存到本地节点,以避免数据跨
spark
节点移动。
浏览 3
提问于2020-10-20
得票数 1
1
回答
将
spark
数据集保存到现有csv
文件
java
、
apache-spark
.write() .mode("append")我的目标是不断将数据集的结果附加到trial.csv
文件
中但是,它会创建一个名为trial.csv的
文件
夹,并在其中创建csv。当我再次运行它时,它在trail.csv
文件
夹中创建了另一个csv
文件
。但我只想让它一直附加到一个csv
文件
中,这是我无法做到的。 我知道我们可以从代码(程序)之外做一
浏览 19
提问于2020-05-26
得票数 4
2
回答
如何在
spark
中编写dataset对象以excel?
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-excel
我使用com.crealytics.
spark
.excel软件包读取excel
文件
。下面是在
spark
中读取excel
文件
的代码。"); 但是,我尝试使用
同一
个(com.crealytics.
spark
.excel)包将dataset对象
写入
spark
中的excel
文件
。java.lang.RuntimeException: com.crealytics.
spark
.excel.DefaultSource不
浏览 5
提问于2017-06-24
得票数 2
回答已采纳
1
回答
在
spark
中动态更改hdfs复制因子
scala
、
apache-spark
、
hdfs
、
replication-factor
在
Spark
(3.2.0)应用程序中,我需要为
写入
HDFS的不同
文件
更改复制因子。例如,我写了一些临时
文件
,我希望它们的复制系数为1。然而,正如我测试的那样,SparkContext.hadoopConfiguration中的dfs.replication根本不影响
文件
的复制因子,而
spark
.hadoop.dfs.replication中添加到核心配置
文件
中的配置
spark
.sql.legacy.setCommandRejectsSparkCore
浏览 102
提问于2021-11-11
得票数 2
1
回答
writeStream:在一个单独的json
文件
中的每个数据帧行
pyspark
、
spark-streaming
、
pyspark-dataframes
我正在使用pyspark将Kafka主题中的数据作为流数据读取,如下所示: .appName("
Spark
Structured Streaming.option("checkpointLocation", "/Desktop/...") \将在
同一
个json中
写入
几行数据,这取决于微批处理的大小
浏览 2
提问于2020-03-12
得票数 0
回答已采纳
2
回答
Spark
输出JSON与Parquet
文件
大小差异
apache-spark
、
parquet
这里是
Spark
的新用户。我通过
Spark
找不到任何关于
同一
个dataFrame的JSON和拼图输出的
文件
大小比较的信息。现在用一个非常小的数据集进行测试,执行一个df.toJSON().collect(),然后
写入
磁盘创建一个15kb的
文件
。但是执行df.write.parquet会创建105个
文件
,每个
文件
的大小约为1.1kb。为什么在这种情况下,使用parquet的总
文件
大小要比使用JSON大得多? 提前感谢
浏览 20
提问于2018-08-14
得票数 2
1
回答
在
同一
位置读取和
写入
csv时,Pyspark
文件
被删除
python
、
dataframe
、
apache-spark
、
pyspark
、
pyspark-dataframes
我正在用下面这行代码读取我的主CSV
文件
然后我读取一些其他CSV
文件
并将它们合并到master中,然后我想覆盖master CSV
文件
master_df.coalesceYou can explicitly
浏览 0
提问于2020-09-29
得票数 0
1
回答
星火如何写到s3或天蓝色的水珠上
apache-spark
、
amazon-s3
、
pyspark
、
azure-blob-storage
当我们使用
spark
在AWS s3或Azure blob存储上
写入
文件
时,我们只需编写:我的问题是,既然
写入
是在几十个或数百个火花执行程序上同时执行的,那么它们如何避免
写入
同一
个<
浏览 1
提问于2020-11-25
得票数 0
回答已采纳
2
回答
spark
(java) -打开的
文件
太多
apache-spark
我正尝试在
spark
2中运行一个批处理作业,它接受一个巨大的列表作为输入,并在该列表上迭代以执行处理。(BypassMergeSortShuffleWriter.java:128) at org.apache.
spark
.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53) at
浏览 0
提问于2017-06-22
得票数 0
1
回答
如何确定在单个节点上运行
spark
的最佳设置?
scala
、
apache-spark
、
pyspark
、
spark-shell
我在一台32核、180 32(无集群)的机器上运行
Spark
-shell。因为它是一个单节点,所以- Driver和Workers都驻留在
同一
个JVM进程中,默认情况下使用514MB。我将
spark
.driver.memory设置为170G
spark
-shell --driver-memory 170g 我正在做一个map操作,然后是group_by,然后是agg,并
写入
到一个拼接
文件
中是否可以通过更改
spark
.executor.memory或更改使用的内核数量来
浏览 19
提问于2020-11-07
得票数 5
1
回答
如何防止在集群模式下出现故障时运行火花提交两次?
apache-spark
、
spark-dataframe
我们正在使用
spark
运行一个批处理过程,并使用
spark
-submit提交带有选项的作业。--deploy-mode cluster \我们基本上接受一个csv
文件
,并对这些
文件
做一些处理,并从它创建一个拼花
文件
。我们正在运行多个
文件
在
同一
个火花提交命令使用配置
文件
。现在假设我们有10个我们正在处理的
文件
,如果进程失败了,让我们假设
文件
6火花再次尝试重新运行该进程,
浏览 2
提问于2017-03-29
得票数 2
回答已采纳
1
回答
S3前缀中的回滚
写入
失败-通过
Spark
进行分区
apache-spark
、
amazon-s3
、
amazon-emr
我们通过EMR使用Apache
Spark
(2.4.5)作业,它读取存储桶前缀{ S3 }/{ prefix }/*.json,执行一些数据消息,然后在覆盖模式下通过
Spark
作业save()将其重写回相同的我的问题是,如果
Spark
作业在将数据重写到S3前缀分区时失败,那么我们是否有办法以任何原子/事务方式恢复该前缀分区中的数据。
spark
/EMR/S3中的任何/所有这些都支持它吗?
浏览 11
提问于2020-10-02
得票数 0
1
回答
Spark
是否使用数据局部性?
hadoop
、
cassandra
、
hbase
、
apache-spark
我在试着理解Apache
Spark
的内部结构。我想知道在从InputFormat读取或
写入
OutputFormat (或其他由
Spark
原生支持且不是从MapReduce派生的格式)时,
Spark
是否使用了一些机制来确保数据的局部性。其中包含数据,因此
Spark
尝试将任务分配给执行器,以尽可能减少网络传输。 在写作的情况下,这样的机制是如何工作的?我知道从技术上讲,HDFS中的
文件
可以保存在本地的任何节点上,并复制到其他两个节点(所以您使用网络进行3个副本中的2个),但是,如果您考虑<
浏览 1
提问于2014-12-24
得票数 13
2
回答
Spark
忽略TBLPROPERTIES中指定的parquet.compression属性
apache-spark-sql
、
hiveql
、
parquet
我需要从
Spark
创建一个Hive表,该表将采用拼花格式和快速压缩。| Value || parquet.compression | ABCDE | 这使我认为
Spark
浏览 3
提问于2016-04-29
得票数 4
回答已采纳
1
回答
Apache
Spark
在哪里对输出进行压缩?
azure
、
apache-spark
、
apache-spark-sql
、
azure-blob-storage
我们有一个在独立集群模式下运行的
Spark
作业,它从HDFS读取数据,使用我们的自定义压缩器组件进行压缩,并将.zip
文件
写入
Azure blob存储。我们的
Spark
和HDFS托管在
同一
数据中心(本地)。例如,
Spark
作业正在从本地HDFS读取8 GB的
文件
,并在Azure blob存储上创建3 GB的.zip,在这种情况下,
Spark
是将8 GB的
文件
复制到Azure blob存储中,然后将其压缩为3 GB的.zip
文件
浏览 13
提问于2021-07-23
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP 文件创建/写入
Go语言文件写入
python文件操作全套讲解(二):写入文件
python笔记19-yaml文件写入
MIPCMS 远程写入配置文件Getshell
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券