对HDFS的Spark写入速度很慢

、、

我在HDFS (非分区)上有ORC数据，大约80亿行，大小为250 in。Iam读取DF中的数据，使用partitionBy ex: df.write.mode("overwrite").partitionBy("some_column").orc("hdfs partitionBy写入不带ay转换的DF“) 当我在spark UI中监控作业状态时，作业和阶段将在20分钟内完成。但spark UI中的&

浏览 174提问于2020-05-28得票数 0

1回答

有没有办法提高saveAsTextFile方法在spark上的性能？

、

我在spark中处理了大量数据，并将它们存储在HDFS中。所以我想知道是否有一种方法可以提高它的性能。我的原始代码(运行速度比预期的要慢)data.当我添加coalesce(1)时，速

浏览 30提问于2017-01-26得票数 0

1回答

将Tensorflow模型的预测输出保存到hdfs文件中

、、、、

我有一个经过训练的tf模型，我想将它应用于hdfs中的大数据集，大约有数十亿个样本。重点是我需要将tf模型的预测写入hdfs文件中。但是我在tensorflow中找不到关于如何将数据保存到hdfs文件中的相关API，只能找到关于读取hdfs文件的api 到目前为止，我的方法是将训练好的tf模型保存到本地的pb文件中，然后在sparkspa

浏览 6提问于2018-11-25得票数 1

2回答

如何控制Spark* job在写入时创建的输出部品文件的数量？*

、、、

我有几个Spark作业，每天处理数千个文件。文件大小可能从MB到GB不等。完成工作后，我通常使用以下代码进行保存dataFrame.write.format("orc").save("/path/in/hdfs") //storing as ORC file as of Spark

浏览 4提问于2015-07-06得票数 2

回答已采纳

1回答

GCP Dataproc -来自GCS的慢读取速度

、、

我的工作只是地图操作df.withColumn("a", lit("b")).write.save我确实理解，阅读一个大的地板文件的分裂是标准的火花行为。此外，还必须有一些元数据交换请求，但是8X调用是非常奇怪的。另外，如果我看一下传输的数据量和时

浏览 1提问于2018-11-12得票数 2

1回答

在HDFS上写入数据需要很长时间

在HDFS上写入文件创建多个零件文件(200)并花费很长时间我正在将配置单元表(使用SqlContext.sql)加载到数据帧1(6K记录)并注册到临时表。我使用左外部连接更新dataframe 1和dataframe 2的值，并尝试将dataframe_1(6K记录)写入HDFS文件，这需要1小时30分钟。我尝试过在不合并的情况下重新分区(dataframe_1.rdd.repartition(2))写文件(1)只写一条记录，看看它是否更快，但没有帮助。我正在使用spark<

浏览 71提问于2019-05-18得票数 2

1回答

为什么来自Oracle的Spark查询(加载)比SQOOP慢？

、、、

我们发现，从Spark 1.3到当前的Spark 2.0.1，使用Spark的API从Oracle数据库加载数据总是很慢。，他当时改进了很多(Spark 1.3.0)。但是Spark核心代码的某些部分变成了Spark的内部代码，所以这个版本之后就不能使用了。此外，我们看到HADOOP的SQOOP在这一部分比Spark快得多(但它写入HDF

浏览 1提问于2016-10-13得票数 9

2回答

Spark 2.0不推荐使用'DirectParquetOutputCommitter'，没有它怎么生活？

、、、、

最近，我们从"EMR on HDFS“--> "EMR on S3”(启用了一致视图的EMRFS)迁移，我们意识到Spark 'SaveAsTable‘(拼图格式)写入S3的速度比HDFS慢约4倍，但我们找到了使用Spark1.6的DirectParquetOutputCommitter -1的变通方法。S3速度慢的原因-我们必须支付所谓

浏览 11提问于2016-09-22得票数 19

1回答

以指定的Linux用户身份运行Spark* executors*

、

我有一个包含5个节点的spark独立集群。所有节点都通过nfs挂载了相同的卷。这些挂载中的文件具有特定的linux文件权限。当我以用户x(在所有节点上都可用，并且在所有节点上具有相同的uid)的身份spark提交作业时，我希望spark executors也以用户x的身份运行，以便作业只能访问用户x有权访问的文件。我没有Kerberos，也没有HDFS。在这个设置中这是可能<em

浏览 0提问于2020-02-22得票数 1

1回答

EMR-斯派克正在缓慢地将一个带有字符串数组的DataFrame写入S3

、、、、

我的数据可以通过两种方式格式化，下面是首选格式：(第一列数中的唯一in的数量(以低百万为单位)。ArrayOfIDs包含GUID格式的字符串，可以包含从100 ~ 100 ,000元素到任何地方)最终试图将我的数据放到Aurora集群中(前面的人坚定地告诉我，Spark连接器对工作来说太慢了，这就是为什么我

浏览 3提问于2019-09-25得票数 4

3回答

随着分区的增加，spark拼接写入变慢

、、

我有一个火花流应用程序，从流写入拼花数据。，写到parquet的速度变慢了。刚开始的时候，写入数据需要15分钟，现在需要40分钟。对于该路径中存在数据，这需要一定的时间。我尝试在一个新的位置运行相同的应用程序，运行速度很快。我已经禁用了schemaMerge和汇总元数据： sparkConf.set("spark.sql.hive.convertMetastoreParquet.mergeSchema&qu

浏览 3提问于2016-09-16得票数 15

2回答

在火花中读取/分析大约1TB大小的Json文件

、、、、

我想分析一个包含14个节点和39个核心(Azure HDInsight/Spark)的集群中的大数据(解压缩后的0.9TB)。但速度很慢。在这里，我所做的：有什么

浏览 6提问于2019-11-26得票数 1

回答已采纳

1回答

更改spark* _temporary目录路径，避免删除parquets*

、、

当两个或多个Spark作业具有相同的输出目录时，相互删除文件将不可避免。我正在使用spark 2.4.4在append模式下写入一个数据帧，我想在spark的tmp目录中添加一个时间戳，以避免这些删除。示例：使用其他数据调用相同的spark作业，并在hdfs:

浏览 20提问于2020-03-19得票数 1

1回答

了解spark应用程序如何使用依赖关系

、、

假设我们有spark应用程序向HDFS写入/从HDFS读取数据，我们有一些额外依赖项，我们称其为dep。(1) spark的版本对发送的依赖项有什么影响？我的意思是<em

浏览 1提问于2020-10-15得票数 0

2回答

正确使用.cache()和.unpersist()

、、、

我有一个脚本，多个数据帧的联合和插入会导致CSV文件。我需要优化它的执行速度。我最近学习了缓存和取消持久化。这是我所做的： val grc = Tables.getGRC(spark) // This is my first df.val grc_cache = grc.cache() var sigma = Tables.getSIGMA(spark, use_database_sigma(0)) // Second DF= "

浏览 43提问于2019-09-06得票数 0

回答已采纳

1回答

Spark任务是否在计算之前读取整个HDFS块？

、、

我最初认为Spark任务在计算之前读取整个HDFS块，但我发现executor读取每个应用程序的HDFS速度是不同的。根据原理，HDFS下载速度应该是全网速度的上限，但实际情况并非如此。例如，我的网络上限是100MB/S，但在LogisticRegression中，一个executor (单核，表示一次只能处理一个任务)，HDFS的下载速度</e

浏览 26提问于2020-06-23得票数 0

回答已采纳

1回答

从Spark输出数十亿行

、、、、

我正在尝试使用PySpark将大约5,000,000行的RDD输出为文本文件。这需要很长的时间，那么关于如何让.saveAsTextFile()更快有什么建议呢？每行有3列，我将保存到HDFS。

浏览 0提问于2016-05-13得票数 0

1回答

如何提高火花性能？

、、、、

我有处理大型数据集的Java程序。数据集存储在hdfs (csv)中。String[]filter字符串数组加载csv文件单独行映射到MyObject 保存MyObject到Cassandra<code>G 211</code>publicstatic void main(String[] args) { // configure sp

浏览 6提问于2020-05-22得票数 3

回答已采纳

1回答

Spark作为Mapreduce的存储层

、、、、

我正面临着一个独特的问题，并希望您的意见在这里。我有一个遗留的map-reduce应用程序，其中多个map-reduce作业顺序运行，中间数据来回写入HDFS。由于中间数据写入HDFS，具有小数据的作业从HDFS的功能中损失大于收益，并且比非Hadoop等效物所花费的时间要长得多。最终，我计划将我所有的map reduce工作转换为Spark DAG，然而这是一个巨大的<

浏览 0提问于2016-12-11得票数 0

1回答

火花连接器加载与稳定负载性能的比较

、

我有一个火花作业，现在从HDFS中提取数据，并将数据转换成平面文件，加载到Cassandra中。我是否可以使用卡桑德拉的火花连接器来加载地图集合和列表的数据，并获得比仅复制命令更好<e

浏览 5提问于2015-10-06得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

有没有办法提高saveAsTextFile方法在spark上的性能？

将Tensorflow模型的预测输出保存到hdfs文件中

如何控制Spark* job在写入时创建的输出部品文件的数量？*

GCP Dataproc -来自GCS的慢读取速度

在HDFS上写入数据需要很长时间

为什么来自Oracle的Spark查询(加载)比SQOOP慢？

Spark 2.0不推荐使用'DirectParquetOutputCommitter'，没有它怎么生活？

以指定的Linux用户身份运行Spark* executors*

EMR-斯派克正在缓慢地将一个带有字符串数组的DataFrame写入S3

随着分区的增加，spark拼接写入变慢

在火花中读取/分析大约1TB大小的Json文件

更改spark* _temporary目录路径，避免删除parquets*

了解spark应用程序如何使用依赖关系

正确使用.cache()和.unpersist()

Spark任务是否在计算之前读取整个HDFS块？

从Spark输出数十亿行

如何提高火花性能？

Spark作为Mapreduce的存储层

火花连接器加载与稳定负载性能的比较

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐