为什么Spark中的重分区比partitionBy快？_为什么Spark的重新分区没有将数据平衡到分区中？_为什么Oracle SQL Developer中的Run语句比Run脚本快？ - 腾讯云开发者社区

、、、

我尝试将Spark用于一个非常简单的用例:给定一个包含数百万设备组的设备时间序列数据的大型文件集(90k)，将给定设备的所有时间序列读取都放入一组文件(分区)中。现在，假设我们的目标是100个分区，给定的设备数据显示在相同的输出文件中并不重要，只是相同的分区。其中任何一个的代码都非常简单： repartition (添加哈希列以

浏览 146提问于2021-11-15得票数 6

回答已采纳

2回答

Spark是否在read上维护拼花地板分区？

、、、

我很难找到这个问题的答案。假设我向parquet编写了一个数据帧，并结合使用repartition和partitionBy来获得一个分区良好的parquet文件。如下所示：现在，稍后我想要读取拼图文件，所以我这样做： val df =

浏览 5提问于2018-06-13得票数 15

1回答

pyspark在输出中写入许多较小的文件

、、

我已经在athena中创建了一个表，它将用于查询此数据。df = sparkSess.createDataFrame(deltaRdd, schema)

浏览 5提问于2019-12-16得票数 2

2回答

在Spark中使用reduceByKey时，有没有有效的分区方法？

、、

当我使用reduceByKey或aggregateByKey时，我会遇到分区问题。例如，reduceBykey(_+_).map(code)因此，作为解决方案，我使用了repartition方法。这对于分区分发是有好处的，但是repartition也很昂贵。有没有办法明智地解决分区问题？

浏览 1提问于2017-03-26得票数 5

1回答

Spark Dynamic Partition overwrite on multiple columns生成空白输出

、、

我在HDP 2.6.5集群和hadoop 2.7.5上使用spark 2.3.0。今天晚上我遇到了一个问题。我在我的一个验证脚本中使用了下面的动态分区覆盖。DF.coalesce(1).write.partitionBy("run_date","dataset_name").mode("overwrite").csv("/target/path") 但是它只用我在spark会话中设置了以下

浏览 19提问于2020-09-10得票数 0

1回答

使用少量大分区的repartionBy的最佳策略

、、、

我必须按四键对地理数据进行重新分区。首先，所有数据都是相当平衡的，但很少有分区比其他分区大500倍。因此，它导致了非常不平衡的分区阶段，比如3500个任务中有20-30个任务比其他任务慢98%。在这种情况下有什么好的策略吗？我需要做的下一步是： stage.repartition(partitionColumns.map(new org.apache.spark.sql.Column(_)):_*)

浏览 0提问于2018-06-29得票数 0

1回答

火花s3写入(s3与s3a连接器)

、、、、

我正在处理一个运行在EMR上的作业，它在s3上节省了数千个分区。分区是年/月/日。我有过去50年的数据。现在，当spark写入10000个分区时，使用s3a连接大约需要1小时。它非常慢。df.repartition($"year", $"month", $"day").write.mode("append").partitionBy("year",

浏览 1提问于2021-11-16得票数 2

1回答

spark数据集覆盖在spark 2.4中无法工作的特定分区

、、、

在我的工作中，最后一步是将执行的数据存储在Hive表中，并在"date“列上进行分区。有时，由于作业失败，我需要单独为特定分区重新运行作业。正如所观察到的，当我使用下面的代码时，spark在使用覆盖模式时覆盖了所有分区。，我按照以下步骤仅覆盖了特定的分区。根据这篇博客，，"insertinto“应该只覆盖特定的分区如果我先创建表，然后使用&q

浏览 1提问于2020-03-18得票数 1

1回答

星火中的默认分区方案

、、

当我执行以下命令时：rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console= org.apache.spark.HashPartitioner@a 它说有10个分区，

浏览 1提问于2015-12-28得票数 20

回答已采纳

1回答

将Spark dataframe写入为带分区的CSV

、、、

我正在尝试将spark中的数据帧写入到HDFS位置，并且我希望如果添加partitionBy符号，Spark将创建以下形式的分区文件夹(类似于以Parquet格式编写)(df.write .mode('overwrite') .format("com

浏览 2提问于2016-05-29得票数 11

回答已采纳

1回答

文件写入的火花分区非常慢。

、、、、

当使用Spark向HDFS写入文件时，当不使用分区时，这是相当快的。相反，当我使用分区写入文件时，写入延迟增加了24因子。你们中的一些人是否有过编写分区文件需要很长时间的相同经验？造成这种情况<e

浏览 4提问于2016-04-01得票数 3

2回答

Spark 2.1 :如何在DataFrameWriter partitionBy中提供多个列

我正在尝试使用Spark 2.1创建一个包含多个分区的orc文件。我的代码看起来像这样：df.write.option("compression", "zlib").partitionBy("a, b").orc("s3a://bucket/") 其中a和b是我想要分区的两列我被org.apache.spark.sql.AnalysisExce

浏览 21提问于2017-06-20得票数 2

回答已采纳

2回答

当数据存储在对象存储中时，从Spark SQL访问配置单元表

、、

我使用spark dataframe编写器将数据写入IBM Cloud Object Storage中的内部hive表，格式为parquet。因此，我的配置单元元存储在HDP集群中，我正在从HDP集群运行spark作业。此spark作业将数据以parquet格式写入IBM COS。，当我对数据进行分区并存储(通过partitionBy)时，我无法直接从spark sql访问数据 spark.sql(

浏览 40提问于2018-12-18得票数 0

1回答

Spark2.2.0版本中的OverWrite专用分区

、、

在Spark中，我希望覆盖特定的分区，而不是所有的分区。我正在尝试以下命令：df.write \ .format("csv") \ .partitionBy("partit

浏览 15提问于2022-11-29得票数 0

1回答

Spark中的散列分区

我正在使用partitionBy()在Spark中进行散列分区。但是该应用程序接口在RDD class.But中不可用，它显示无法解析在单机上运行的partitionBy() .I am，并且Spark核心版本为1.2。import org.apache.spark.SparkContext(sparkConf); val testrdd = sparkContext.parallelize[Int](List(1,2,3,4,6,8,4,5,6));

浏览 0提问于2016-04-05得票数 0

2回答

在星火库上列出特定单元表的所有分区，并添加一个分区

、

如何向hive表中添加新的分区？有什么api的蜂巢亚稳态，我可以使用火花？有没有办法获得映射dataframe row => partition_path的内部单元函数？spark正在将所有文件放在$HIVE/my_table下而不是$HIVE/my_table/month/...下，这意味着他没有对数据进行分区。当我编写df.write.partitionBy(...).mode(Overwrite).

浏览 2提问于2016-10-26得票数 6

回答已采纳

1回答

在Databricks中复制Delta表后，它的写入速度显著提高

、、、、

我正在将一个PySpark数据文件合并到一个Delta表中。输出增量按日期进行分区。下面的查询需要运行30： "actual"，当使用而不是PATH_TO_THE_TABLE时，上面的查询变得比PATH_TO_THE_TABLE快60倍(即在同一个集群上使用0.5s )。下面是复制增量的命令： (spark.

浏览 1提问于2021-12-13得票数 3

1回答

spark dataframe保存为分区表的速度非常慢

df.write.partitionBy("par").format("orc").saveAsTable("mytable") 大家好，当我将spark数据帧保存为分区的hive表时，过程非常非常慢，有人知道为什么吗？是否有需要调整的参数？

浏览 0提问于2017-09-15得票数 2

1回答

如何可靠地写入和恢复分区数据

我正在寻找一种方法来写入和恢复分区数据集。对于这个问题，我可以接受两个分区的RDD和Dataset[Row] / Dataframe这样做的目的是为了在恢复数据时避免混洗例如： spark.range(n).withCo

浏览 0提问于2016-10-06得票数 2

2回答

spark HWC无法写入现有表

、、、、

在HDP 3.1.0中，HWC hive-warehouse-connector-assembly-1.0.0.3.1.0.0-78.jar，i不能根据数据库追加(或覆盖)到现有的表。我在一个名为DSN的数据库上测试，它工作，但在另一个名为CLEAN_CRYPT的数据库上它失败了。两个数据库都是加密的+ kerberosimport com.hortonworks.

浏览 2提问于2020-01-28得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云