Spark中几个任务中的重新分区数据瓶颈

文章/答案/技术大牛

发布

1回答

、

我有一个简单的spark工作，它做以下工作 val dfIn = spark.read.parquet(PATH_IN)dfOut.write.mode(SaveMode.Append).partitionBy(col1, col2, col3).parquet(PATH_OUT) 我注意到这份工作的表现有很大的恶化检查Spark UI显示，写入瓶颈出现在一些任务<

浏览 31提问于2021-11-04得票数 2

2回答

由于本地级别为“任意”和缓存的RDD上的网络获取而造成的严重分离任务

已完全读取的缓存数据集(已成功读取)正在重新处理。少数任务(通常为2/204个任务- 1%)在随后通过相同的(仍缓存的)数据集时可能会失败。我们在第1.3.1号火星上。下面的屏幕截图显示，在204个任务中，最后两个任务似乎被调度程序“遗忘”了。所有其他任务都是在合理的</e

浏览 3提问于2015-08-16得票数 0

回答已采纳

2回答

spark数据帧中的高效连接

、、、、

我想执行以下操作：有没有任何类型的重新分区或预处理可以加速这一过程

浏览 3提问于2018-10-17得票数 0

1回答

为什么Spark应用程序将包含多个csv文件的DataFrame保存到S3存储桶

、、、

嗨，我是Spark和Amazon EMR集群的新手。我试图编写一个可以在Amazon EMR集群上运行的演示spark应用程序。当代码在Zeppelin notebook上运行时，它会返回输出，我认为输出会保存为Amazon EMR集群上的单个文件，如下所示： %pyspark spark.conf.set('spark.sql.repl.eagerEval.enabled应用程序时，它将多个CSV文件保存到S3存储桶中。我想知道为什么我<

浏览 31提问于2021-04-16得票数 0

回答已采纳

1回答

理解火花中的洗牌和rePartitioning

、

如果有人能用简化的术语回答这几个与火花混淆有关的问题，我将不胜感激。在spark中，在加载数据集时，我们指定分区的数量，这说明输入数据(RDD)应该划分多少块，并且根据分区数，启动相同数量的任务(如果假设错误，请更正我)，.for X核数在worker node.corresponding按照类似的思路，下面是几个问题。因为，所有byKey操作以及合并、

浏览 0提问于2017-01-11得票数 2

2回答

面向对象模型的Spark内存管理

、

情况是这样的:我启动了一个spark作业，但由于OOM的许多任务失败而失败。所以我增加了任务的内存分配。我仍然看到OOM的一些节点失败了，但作业最终可能会成功。我的问题是Spark是如何处理这个问题的？似乎Spark可以在一次失败的尝试后重新分发数据。附注:失败的任务是在批处理作业中应用Win

浏览 0提问于2018-01-31得票数 0

1回答

火花:连接时设置最大分区大小

在火花中执行联接时，或者一般情况下，对于洗牌操作，我可以设置分区的最大数量，在其中，我希望spark执行此操作。根据文件： spark.sql.shuffle.partitions 200配置用于联接或聚合的数据洗牌时使用的分区数。如果我想降低在每个任务中必须完成的工作量，我必须估计数据的总大小并相应地调整这个参数(更多的分区

浏览 0提问于2018-12-03得票数 2

回答已采纳

2回答

在Apache中，如何将缓慢的RDD/dataset转换为流？

、、、

我正在研究一个有趣的案例，它涉及在一个缓慢的RDD或dataset上的广泛转换(例如重新分区和连接)，例如由以下代码定义的数据集： val ds = sqlContext.createDataset(1，因为它类似于远程数据源的视图，分区迭代器是从单线程网络协议(http、jdbc等)派生的，在本例中，下载速度>单线程处理速度，但<<是分布式处理速度。不幸

浏览 1提问于2019-08-13得票数 15

1回答

是否可以在火花阶段重新排序任务？

、、、

我的问题是关于在星火的一个阶段的任务顺序。我有一个星火数据分割成3000个分区。分区是在一个特定键上完成的。在我的dataframe上运行它的计算时，我在Spark中看到(我还做了一些测试以确保是这样的)，任务index对应于分区id，与上面通过mapPartitionsWithIndex获得的id完全相同。因此，<

浏览 2提问于2019-07-26得票数 1

2回答

为什么在按组操作期间我的洗牌分区不是200(默认的)？(火花2.4.5)

、、

我是新的火花，并试图理解它的内在。因此，我从s3读取一个小的50 to的拼板文件，然后按组执行，然后保存回s3。当我观察Spark时，我可以看到为此创建的3个阶段，第1阶段:分组的洗牌阶段(12项任务)代码示例： df = spark.read.format所以，默认的并行性是12，我不会在运行时更改任何配置

浏览 2提问于2020-08-06得票数 5

回答已采纳

2回答

为什么火花创建的分区少于从S3读取的文件数量

、

我用的是火花2.3.1。当我执行一个mapPartitions和一个collect之后，只使用278任务(我希望使用5000)。为什么？

浏览 2提问于2018-11-06得票数 0

1回答

设置用于性能优化、outOfMemoryError Gc和GC限制的火花参数

、、、、

我有5个模式，每个模式有8个cpu核和30GB内存，我有5GB的dataset1和65 5GB的dataset2，所以我需要加入它们并保存到s3文件系统中，我设置了以下参数:但是，我到处搜索，尝试不同的参数，但我仍然在摆脱记忆错误。在Java代码中也使用了这种方法： conf.set("spark.serializer", "org.apache.spark.serializer.KryoSeri

浏览 1提问于2016-11-30得票数 0

1回答

在Spark中重新分区大文件

、、、

我是Spark的新手，有一个1TB的文件要处理。我的系统规格是：节点数:2据我所知，我必须重新分区数据以获得更好的并行性，因为spark将尝试创建默认分区，仅通过(totalNumber of但在我的例子中，由于数据文件非常大，我必须将这些数据重新划分为

浏览 1提问于2020-11-02得票数 1

1回答

saveAsTextFile的最后阶段是非常慢的

、、、

仔细检查后，似乎每个任务都在读取MapPartitionsRDD，的所有1000个分区，我认为，从直觉上讲，这些分区一定是性能问题的根源。这些分区分布在所有的执行器上，所以我认为每个任务都需要从不是它的直接父级的n-1执行器中请求所有的分区。优化这个应用程序的最佳方法是什么？分区越少，请求的远程数据就越少？更少的</e

浏览 3提问于2015-11-05得票数 1

回答已采纳

2回答

在apache火花生产场景中处理倾斜数据

、

谁能解释在Apache的生产中如何处理倾斜的数据？我们使用"spark-submit"提交了spark作业，并且在spark中观察到很少有任务花费很长的时间，这表明存在偏差。问题：(2)我们是否需要终止作业，然后在jar中包含倾斜的解决方案并重新提交作业？(3)能否通过直接从shell运行(合并)之类<

浏览 0提问于2018-06-25得票数 3

1回答

当从cassandra源读取数据时，spark中的重新分区会改变spark分区的数量吗？

、、

我正在从spark的cassandra表中读取一张表。我在cassandra中有很大的分区，当cassandra的分区大小超过64MB时，在这种情况下，cassandra分区将等于spark分区。由于分区太大，我在spark中遇到了内存问题。我的问题是，如果我在从cassandra读取数据后开始重新分

浏览 48提问于2021-06-07得票数 1

2回答

内存管理火花

、、

1.)我理解“星火的操作人员如果数据不适合内存，就会将数据泄漏到磁盘上，允许它在任何大小的数据上运行良好”。如果这是真的，为什么我们会得到OOM (内存中的)错误？3.)与Hive相比，Spark更容易受到OOM的影响，因为它在内存中执行操作，Hive会重复读取、写入磁盘

浏览 4提问于2020-07-17得票数 0

回答已采纳

2回答

当文件不能放入spark的主内存时，spark如何读取大文件(‘s)

、、

1) Spark从NameNode获取数据的位置。Spark是否会在同一时间停止，因为根据来自NameNode的信息，数据大小太长？2) Spark根据datanode块大小对数据进行分区，但不能将所有数据存储到主存中。这里我们不使用StorageLevel。那么这里会发生什么呢？3) Spark做数据分区，有些数据会存储在主存

浏览 0提问于2017-10-09得票数 30

回答已采纳

2回答

在Spark* SQL中加入分区以获得更好的性能*

、

我是Spark SQL的新手。我有一个关于连接期间分区使用的问题假设有一个名为test1的表，它保存在10分区(parquet)文件中。还假设spark.sql.shuffle.partitions = 200。问:如果使用test1对另一个表进行Join，Spark会使用10分区(这是表所在分区的数量)执行操作，还是会在200分区中对表进行<

浏览 42提问于2021-01-30得票数 0

2回答

如何在并行spark中运行转换

、、、

我正在尝试读取text.gz文件，对其进行重新分区并进行一些转换，但是当我看到DAG时，stag1正在读取数据并仅在1个任务上执行转换，因此需要花费一些时间。 df1 =spark.read.text("text-04-14.log.gz")text_to_json_udf = udf(tex

浏览 2提问于2021-04-30得票数 0

点击加载更多