Spark:当groupBy被调用时，重新分区到一个节点的数据帧是否会经历一次洗牌？ - 腾讯云开发者社区

scala、apache-spark、rdd

我有一个((id, ts), some value)类型的排序RDD。仅在id字段上使用自定义分区器对此进行分区。 math.abs(id.hashCode % numPartitions) 现在，如果我在这个分区的RDD上运行以下两个函数，它会涉及数据集的洗牌和重新分区吗？ val partitionedRDD: ((id:Long, ts:Long), val:String) = <Some Function> val flatRDD = orderedRDD.map(_ => (_._1.id, (_._1.ts, _._2))) 我想知道的是，flatRDD.grou

浏览 0提问于2017-01-13得票数 3

回答已采纳

1回答

将数据帧分割成较小的数据帧，并将一个大的数据帧推送给所有执行者？

scala、apache-spark

我正在使用Spark实现以下逻辑。获取50K行表的结果。获取另一个表(大约30K行)。对于(1)和(2)之间的所有组合，做一些工作并得到一个值。将(2)的数据框架推送到所有执行器和分区(1)，并在每个执行器上运行每个部分如何？如何实施？ val getTable(t String) = sqlContext.read.format("jdbc").options(Map( "driver" -> "com.microsoft.sqlserver.jdbc.SQLServerDriver", &

浏览 2提问于2017-07-14得票数 0

1回答

星火GMM RDD自动索引？

scala、apache-spark、apache-spark-mllib

我是第一次激发GMM，但我对GMM的工作方式有很好的了解。因此，我有一个问题，我希望有人能启发我。我使用的代码是标准的Spark，我有一个非索引的RDD( Value )格式的输入，其中我希望使用GMM.predictSoft对值进行集群： val Vectorize = Input.map(x=>(Vectors.dense(x))) val Valuegmm = newGaussianMixture().setK(5).run(Vectorize) val GMMgroup = Valuegmm.predictSoft(Vectorize).map(x=>x.indexOf(

浏览 5提问于2015-09-23得票数 0

回答已采纳

1回答

避免数据洗牌和合并-numPartitions不应用于单个分区，同时在spark中执行左反连接。

apache-spark、apache-spark-sql、anti-join

我有两个数据- target_df和reference_df.我需要删除target_df中的account_id，它存在于reference_df中。target_df是从hive表创建的，将有数百个分区。它是根据日期(20220101到20221101)进行分区的。我是做左反连接和写入数据在hdfs的位置。 val numPartitions = 10 val df_purge = spark.sql(s"SELECT /*+ BROADCASTJOIN(ref) */ target.* FROM input_table target LEFT ANTI JOIN ${r

浏览 11提问于2022-11-21得票数 0

1回答

PySpark -在读取拼花后优化分区数

apache-spark、pyspark、partitioning、parquet

在一个由year和month分隔的拼花数据湖中，spark.default.parallelism设置为4，假设我想创建一个DataFrame，由2017年以来的11~12个月，以及2018年的1~3个月( A和B )组成。 df = spark.read.parquet( "A.parquet/_YEAR={2017}/_MONTH={11,12}", "A.parquet/_YEAR={2018}/_MONTH={1,2,3}", "B.parquet/_YEAR={2017}/_MONTH={11,12}",

浏览 1提问于2018-06-05得票数 2

回答已采纳

2回答

为什么dataset.count会引起洗牌！(火花2.2)

scala、apache-spark、spark-dataframe、rdd

这是我的数据底层的RDD有两个分区。当我做df.count时，生成的DAG是当我做df.rdd.count时，生成的DAG是： Ques：Count是spark中的一个操作，官方定义为“返回DataFrame中的行数”。现在，当我对dataframe执行计数时，为什么会发生洗牌？此外，当我在底层的RDD上做同样的操作时，不会发生洗牌。 --我不明白为什么会发生洗牌。，我试着看了count这里的的源代码，但对我来说没有充分的意义。被提供给该行动的“群”是罪魁祸首吗？ PS。df.coalesce(1).count不会引起任何洗牌

浏览 6提问于2017-11-09得票数 16

1回答

Spark中分发BY和Shuffle的区别

python、apache-spark、apache-spark-sql、pyspark-sql

我试图理解Distribute by子句，以及如何在Spark-SQL中使用它来优化Sort-Merge Joins。根据我的理解，Spark优化器将根据连接键(洗牌阶段)分发两个参与表(连接)的数据集，以便在同一个分区中共同定位相同的键。如果是这样的话，那么如果我们在sql中使用distribute by，那么我们也在做同样的事情。那么，如何使用distribute by来改善join性能呢？还是在通过加载过程将数据写入磁盘时使用distribute by更好，以便以后使用该数据的查询不必对其进行洗牌，从而从中受益？请您用一个真实的例子来解释一下如何在Spark中使用distribut

浏览 0提问于2019-08-09得票数 2

1回答

当洗牌写得很大，火花任务变得超慢时的优化

hadoop、apache-spark、hive

有一个SparkSQL，它将连接4个大表(前3个表5000万个，最后一个表2000万个)，并按操作进行分组，消耗60天的数据。这个SQL将需要2个小时才能运行，在此期间，我检查了Shuffle Write的急剧增长，可能会超过200 go。相反，当我将消耗日期从60天减少到45天时，运行只需6.3min。我查看了DAG图表，在45天的数据中，它在上次sortMergeJoin之后输出了10亿个数据。有人能告诉我我可以优化这个场景的方向吗？谢谢! P.S. 可能的相关信息： Spark.version=2.1.0 spark.executor.instances=20 spark

浏览 3提问于2017-10-09得票数 2

2回答

即使在8小时后，火花写入CSV也会失败

apache-spark、spark-dataframe

我有一个包含大约200-600 gb数据的数据，我正在读取、操作，然后使用弹性地图上的spark shell (scala)将cluster.Spark写到csv，即使在8小时后也会失败。下面是我给csv写信的方式： result.persist.coalesce(20000).write.option("delimiter",",").csv("s3://bucket-name/results") 结果变量是通过来自其他数据格式的列的混合创建的：var result=sources.join(destinations, Seq("so

浏览 5提问于2017-06-11得票数 3

2回答

什么是洗牌分区？

apache-spark、pyspark、partitioning

从更专业的角度来说，什么是spark.sql.shuffle.partitions？我已经看到了像这样的答案，它说：“配置用于联接或聚合的数据洗牌时使用的分区数量。” 那到底是什么意思？当这个数字更高或更低时，从一个节点到另一个节点的洗牌工作是如何不同的？谢谢!

浏览 0提问于2019-09-05得票数 2

回答已采纳

1回答

理解星火结构流并行性

apache-spark、apache-spark-sql、spark-structured-streaming

我是星火世界的新手，在一些概念上苦苦挣扎。当使用由Kafka提供的Spark结构化流源时，并行性是如何发生的？让我们考虑下面的代码片段： SparkSession spark = SparkSession .builder() .appName("myApp") .getOrCreate(); Dataset<VideoEventData> ds = spark .readStream() .format("kafka") ... gDataset = ds.gro

浏览 3提问于2018-01-13得票数 8

回答已采纳

1回答

星火是否在内部节点间分发数据？

apache-spark、pyspark、apache-spark-sql

我正在尝试使用Spark处理集群上的csv文件。我想了解是否需要显式读取每个工作节点上的文件来并行处理，还是驱动节点读取文件并在集群中分发数据以便内部处理？(我正在使用Spark2.3.2和Python) 我知道RDD可以使用SparkContext.parallelize()并行化，但是在DataFrames?的情况下会怎样呢？ if __name__=="__main__": spark=SparkSession.builder.appName('myApp').getOrCreate() df=spark.read.csv('d

浏览 0提问于2019-04-03得票数 5

2回答

200个默认分区的spark.sql.shuffle.partitions难题

apache-spark

在许多帖子中，由于一些关于洗牌，分区，due to JOIN，AGGR，等等的问题，有这样的声明-如下面以某种形式显示的： ..。通常，无论何时进行spark sql聚合或连接，这都会导致的分区数= 200。这由spark.sql.shuffle.partitions设置。..。所以，我的问题是：我们的意思是，如果我们将DF的分区设置为765，例如，则处理发生在765个分区上，但输出将标准化地合并/重新分区为200 -这里指的是word resulting？，或者它是否在合并/重新分区到JOINing，AGGR?之前的200个分区后使用200个分区进行处理我问，因为我从来没有看到一个

浏览 630提问于2018-08-21得票数 9

回答已采纳

1回答

Apache Spark join操作的弱伸缩性差

performance、scala、apache-spark、distributed-computing

我在Apache Spark上运行"join“操作，发现没有弱可伸缩性。如果有人能解释这一点，我将不胜感激。我创建了两个数据帧("a"，"b")和("a"，"c")，并通过第一列连接这两个数据帧。我为“一对一”连接生成数据帧值。此外，我使用相同的分割器来避免混洗。数据帧中的行数- 1024 * 1024 * 16 * cores_total (cores_total -在其上启动程序的核心总数)。列"a“由随机Int值组成，"b”列的所有值等于1，"c“列的所有值等于2。理论上，随着数据大小和

浏览 0提问于2017-10-04得票数 3

1回答

重新分区pyspark失败以及如何避免初始分区大小

python、pyspark、apache-spark-sql、apache-spark-2.3

我试图通过使用星星之火数据分割来调优spark的性能。以下是代码： file_path1 = spark.read.parquet(*paths[:15]) df = file_path1.select(columns) \ .where((func.col("organization") == organization)) df = df.repartition(10) #execute an action just to make spark execute the repartition step df.first() 在first()的执行过程中，我检查了Sp

浏览 0提问于2019-02-25得票数 0

1回答

为什么在减少分区数量时，spark数据帧重新分区比合并更快？

apache-spark、hdfs

我有一个有100个分区的df文件，在保存到HDFS作为.parquet之前，我想减少分区的数量，因为拼图文件太小(<1MB)。我在写之前添加了coalesce： df.coalesce(3).write.mode("append").parquet(OUTPUT_LOC) 它可以工作，但会将过程从每个文件2-3秒减慢到每个文件10-20秒。当我尝试重新分区时： df.repartition(3).write.mode("append").parquet(OUTPUT_LOC) 这个过程一点也不慢，每个文件2-3秒。为什么？当减少分区数量时，联合不应该总是

浏览 16提问于2021-05-20得票数 1

5回答

java.lang.OutOfMemoryError:无法获得100个字节的内存，获得0

python、hadoop、memory、apache-spark、pyspark

我使用以下命令在本地模式下使用Spark2.0调用Pyspark： pyspark --executor-memory 4g --driver-memory 4g 输入数据正在从tsv文件中读取，并且有580 Kx28列。我正在对dataframe做一些操作，然后我尝试将它导出到tsv文件中，我得到了这个错误。 df.coalesce(1).write.save("sample.tsv",format = "csv",header = 'true', delimiter = '\t') 任何关于如何消除这个错误的提示。我可以很容易

浏览 7提问于2016-08-15得票数 24

回答已采纳

1回答

独特的写入正在使输出大小增加近10倍。

apache-spark、apache-spark-sql

有一种情况是，我试图使用dataframe编写一些结果，使用下面的S3查询，input_table_1大小为13 Gb，input_table_2为1MB input_table_1有列帐户，成员资格和input_table_2有列角色，id，membership_id，quantity，start_date SELECT /*+ BROADCASTJOIN(input_table_2) */ account, role, id, quantity, cast(start_date AS string) AS start_date FROM

浏览 1提问于2022-07-15得票数 1

回答已采纳

1回答

Apache Spark中的RDD和分区

apache-spark

因此，在Spark中，当一个应用程序启动时，就会创建一个包含该应用程序的数据集(例如，WordCount的words数据集)的RDD。到目前为止，我所理解的是，RDD是WordCount中这些单词的集合，以及对这些数据集所做的操作(例如，map、reduceByKey等)。然而，afaik，Spark也有HadoopPartition (或一般的:分区)，它由每个执行器从HDFS读取。我相信驱动程序中的RDD也包含所有这些分区。那么，Spark中的执行者之间是如何划分的呢？是否每个执行器都将这些子数据集作为单个RDD获取，与驱动程序中的RDD相比，RDD包含的数据更少，还是每个执行器只处

浏览 1提问于2016-04-11得票数 0

1回答

火花的洗牌排序合并连接。一个DataFrame是桶状的。斯派克会利用这个机会吗？

apache-spark

我记得在使用RDD时，如果一个键值RDD (rdd1)有一个已知的分区，那么使用不同的、不分区的键值RDD (rdd2)执行一个连接就会提高性能。这是因为1)只有rdd2的数据需要在网络上传输，2) rdd2的每个元素只需要传输到一个节点，而不是所有节点，方法是将rdd1的密钥划分到rdd2的密钥上。我正在学习与DataFrames的洗牌排序合并连接。我正在读的这本书(学习火花，第二版)中的例子是为了加入两个基于DataFrames列的user_id。该示例试图演示如何从联接操作中消除Exchange阶段，因此，在连接之前，两个DataFrames将被加入的列放入相同数量的桶中。我的问题是

浏览 2提问于2020-08-06得票数 0

回答已采纳

1回答

如何通过dataframe操作保留分区

apache-spark、dataframe

是否有可靠的方法来预测哪些Spark数据will操作将保留分区，哪些不会？具体来说，假设我的数据文件都是用.repartition(500，‘field1 1’，'field2')进行分区的。如果我应用以下方法，我可以期望得到由这些相同字段排列的500个分区的输出吗？选择() 过滤器() groupBy()后面跟着agg()，当分组发生在'field1‘和'field2’上(如上面所示) “field1”和“field2”上的联接()，当两个数据文件都按照上面的方式进行分区时考虑到数据预分区的特殊方式，我希望不会发生额外的洗牌。然而

浏览 0提问于2018-09-15得票数 4

回答已采纳

1回答

理解火花解释:收集对全球和地方的限制

apache-spark、pyspark、aws-glue

我想看看在星火/AWS胶水中使用极限的区别我试过使用Spark spark.sql("SELECT * FROM flights LIMIT 10") 解释的内容类似于： CollectLimit 10 +- *FileScan parquet xxxxxx.flights[Id#31,...] Batched: true, Format: Parquet, Location: CatalogFileIndex[s3://xxxxxx/flights], PartitionCount: 14509, PartitionFilters: [], PushedFilters: [

浏览 0提问于2019-05-25得票数 0

回答已采纳

1回答

使用java代码中的HiveContext为hive1.2.0抛出内存错误

java、hadoop、apache-spark、hive、apache-spark-sql

我有一个火花-1.5.1的Hadoop2.6运行在我的本地机器上的独立模式。我正在尝试从一个示例java应用程序中运行一个hive查询，将spark.master指向在我的本地计算机上运行的火花主程序( spark ://Dynamic-i0248u:7077)。下面是一段java代码： SparkConf sparkconf = new SparkConf().set("spark.master", "spark://impetus-i0248u:7077").set("spark.app.name", "sparkhivesqlte

浏览 2提问于2015-12-10得票数 1

1回答

在Apache中，我可以轻松地重复/嵌套一个SparkContext.parallelize吗？

java、scala、parallel-processing、apache-spark、nested-loops

我试图模拟一个我们正在努力解决的遗传学问题，逐步建立它。我可以成功地从星火示例中运行PiAverage示例。这个例子“扔飞镖”到一个圆圈(在我们的例子中是10^6)，并计算“落在圆圈中”的数字来估计PI。假设我想重复这个过程1000次(并行)，并且平均所有这些估计数。我想看看最好的方法，似乎会有两个调用并行化？嵌套电话？难道没有办法把地图链接起来或者减少通话吗？我看不到它。我想知道下面这个想法的智慧。我想用累加器来跟踪结果的估计。jsc是我的SparkContext，完整的单次运行代码在问题的末尾，谢谢您的输入！ Accumulator<Double> accum = jsc.

浏览 7提问于2015-12-15得票数 0

回答已采纳

20回答

火花-重新分区()与coalesce()

apache-spark、distributed-computing、rdd

根据学习火花请记住，重新分区您的数据是一个相当昂贵的操作。Spark还有一个名为repartition()的优化版本coalesce()，它允许避免数据移动，但前提是要减少RDD分区的数量。我发现的一个不同之处是，使用repartition()，分区数量可以增加/减少，而使用coalesce()，分区数只能减少。如果分区分布在多台机器上，并且运行coalesce()，那么如何避免数据移动？

浏览 6提问于2015-07-24得票数 391

回答已采纳

1回答

合并减少整个阶段的并行性(火花)

scala、apache-spark

有时候，星火“优化”一个数据的计划，以一种低效的方式。请考虑星火2.1中的以下示例(也可在Spark 1.6中转载)： val df = sparkContext.parallelize((1 to 500).map(i=> scala.util.Random.nextDouble),100).toDF("value") val expensiveUDF = udf((d:Double) => {Thread.sleep(100);d}) val df_result = df .withColumn("udfResult",expensiveUD

浏览 2提问于2017-06-12得票数 20

回答已采纳

1回答

如何并行处理数据，但在星火中将结果写入单个文件

apache-spark

我有份工作是：从hdfs读取数据如果没有洗牌和聚合(只有映射操作)，会进行密集的转换吗？将结果写回hdfs 假设我有10 in的原始数据(40个块=40个输入分区)，这将产生100 in的处理数据。为了避免在hdfs中生成许多小文件，我使用了"coalesce(1)“语句来编写带有结果的单个文件。这样做，我只运行了一个任务(因为“合并(1)”和没有洗牌)，它在一个线程中处理所有10 in的任务。是否有一种方法可以在40个并行任务中进行实际的密集处理，并在写入磁盘之前减少分区数，并避免数据洗牌？我有一个可行的想法--在所有处理之后，在内存中缓存数据(进行计数

浏览 0提问于2018-10-31得票数 1

1回答

如何快速写入一个csv文件？

dataframe、apache-spark

当我写到csv时，我试图重新划分(1)数据，但是它运行了两个多小时。我尝试了repartition(20)，但是它仍然很慢。我认为数据是大的，我是新的火花，我如何才能使这更快？ df.repartition(20).write.format("com.databricks.spark.csv").option("header", "true").save(filepath)

浏览 0提问于2019-09-30得票数 0

2回答

火花洗牌分区与聚结

apache-spark

当我要读取一些数据时，假设我有一个有20个分区的数据集。然后，我对该数据集进行聚合操作，这将使分区不为200(因为默认的洗牌分区大小)。现在，到目前为止，我没有对该数据集调用任何操作，而是在相同的数据集中应用合并，在合并操作中提供30个分区，然后在该数据集上调用一些星火操作。因此，我的问题是，当数据集有其聚合操作时，将有多少个分区在运行？它是30个分区(因为这是给出的合并分区)还是200个洗牌分区？为了对我的问题提供更多的澄清，编辑：，我理解合并操作本身不会做洗牌，除非我们彻底改变了没有分区。我还理解，最终数据集只具有numPartitions大小，但我的问题是，如果在对该数据传输单元调用

浏览 0提问于2020-10-09得票数 1

1回答

Spark中多个数据帧上的大量转换

scala、apache-spark

我有一个基于spark的转换引擎，它是元数据驱动的。我在Scala MapString DataFrame中对内存中存储的多个数据帧执行一组转换。我遇到一种情况，我使用84种转换生成数据帧，包括(withColumn、Join、union等)。在这些之后，输出数据帧被用作另一组转换的输入。如果我在前84次转换后写入中间转换结果，然后将数据帧从输出路径加载到Map中。下一组转换可以正常工作。如果我不这样做，仅评估就需要30分钟。我的方法:我尝试使用以下方法持久化Dataframe： dfMap(target).cache() 但这种方法并没有帮助。

浏览 11提问于2020-06-27得票数 0

3回答

什么时候蓄能器才是真正可靠的？

apache-spark

我想使用累加器来收集一些关于我正在操作的星火作业数据的统计数据。理想情况下，当作业计算所需的转换时，我会这样做，但是由于Spark将在不同的情况下重新计算任务，累加器将不会反映真正的指标。以下是文档对此的描述：对于仅在操作内部执行的累加器更新，Spark保证每个任务对累加器的更新只适用一次，即重新启动的任务不会更新该值。在转换中，用户应该知道，如果任务或作业阶段被重新执行，每个任务的更新可能不止一次应用。这是令人困惑的，因为大多数操作不允许运行自定义代码(在那里可以使用累加器)，它们主要是从以前的转换中获得结果(懒散地)。这些文件还表明： val acc = sc.accumula

浏览 6提问于2015-04-07得票数 52

回答已采纳

1回答

如何处理火花中强变化的数据大小

apache-spark

我想知道在设计火花作业时的最佳实践，在这种情况下，数据的数量是事先不知道的(或者是变化很大的)。在我的示例中，应用程序应该同时处理初始负载和稍后的增量数据。我想知道如何设置数据中的分区数(例如，使用repartition或设置参数(如spark.sql.shuffle.partitions )，以避免执行器中的OOM超出(每个执行器分配的内存数量固定)。我可以定义一个非常多的分区，以确保即使在非常高的工作负载下，作业也不会失败。根据源数据的大小在运行时设置分区数。在独立数据块上引入迭代(即循环) 在所有选择中，我都看到了一些问题： 1:我认为这对于小数据大小是低效的

浏览 0提问于2017-06-28得票数 0

1回答

写入时对数据进行分区的自定义文件格式

apache-spark

您好，我想将我的spark数据帧保存到一个具有自定义文件格式的文件中，以便它在写入文件时将数据分区到不同的文件中。此外，我需要为每个分区关键字的单一部分文件。我已经尝试扩展TextBasedFileFormat和change writer来满足我的需求。在没有随机写入文件的情况下对数据进行分区。但我觉得每个rdd分区都会将数据写入不同的部分文件

浏览 16提问于2019-05-29得票数 0

回答已采纳

3回答

如何计算合并的最佳numberOfPartitions？

scala、apache-spark、rdd

因此，我理解在通常情况下，在以下情况下应该使用coalesce()：由于filter或其他可能导致减少原始数据集(RDD、DF)的操作，分区数量减少。coalesce()对于过滤大型数据集后更有效地运行操作非常有用。我还了解到，它比repartition便宜，因为它只在必要时通过移动数据来减少洗牌。我的问题是如何定义coalesce接受的参数(idealPartionionNo)。我正在做一个从另一个工程师那里传递给我的项目，他用下面的计算来计算这个参数的值。 // DEFINE OPTIMAL PARTITION NUMBER implicit val NO_OF_EXECUTO

浏览 1提问于2016-11-29得票数 20

回答已采纳

2回答

触发本地rdd写入到本地Cassandra DB

apache-spark、cassandra、spark-cassandra-connector、dse

我有一个DSE集群，集群中的每个节点都在运行spark和Cassandra。当我从Cassandra加载数据到spark rdd并在Rdd上执行一些操作时，我知道数据将分布到多个节点中。在我的例子中，我想把这些rdds从每个节点直接写到它的本地Cassandra dB表中，有没有办法做到这一点。如果我执行普通的rdd收集，来自spark节点的所有数据将被合并，并返回到带有驱动程序的节点。我不希望发生这种情况，因为从节点返回到驱动程序节点的数据可能需要很长时间，我希望数据直接保存到本地节点，以避免数据跨spark节点移动。

浏览 3提问于2020-10-20得票数 1

1回答

为什么增加spark.sql.shuffle.partitions会导致FetchFailedException

apache-spark、apache-spark-sql

在设置FetchFailedException = 2700时，当我加入到表中时，我会遇到一个spark.sql.shuffle.partitions 但是，当设置spark.sql.shuffle.partitions = 500时，可以成功运行。如我所知，增加shuffle.partitions将减少每次任务中的数据洗牌时。我错过了什么吗？异常 FetchFailed(BlockManagerId(699, nfjd-hadoop02-node120.jpushoa.com, 7337, None), shuffleId=4, mapId=59, reduceId=1140, mes

浏览 6提问于2020-06-14得票数 0

1回答

当应用于聚合的Dataframe (但在普通的Dataframe上)时，pyspark不并行化。

apache-spark、pyspark、foreach、apache-spark-sql

我在电火花中使用pyspark.sql.dataframe.DataFrame。我有一个司机和三个执行者/工人。当我想将一个函数应用到每一行并让它在三个执行器中的一个上运行时，它会在一个正常的数据文件上工作，但是如果我对数据帧执行了一个groupBy和agg，那么所有这些都会在同一个执行器/工作程序上运行。 data = [('James','Smith','apples','a'),('James','Smith','oranges','b'),('Jam

浏览 9提问于2022-05-11得票数 0

3回答

卡桑德拉+火花执行器超收敛

apache-spark、cassandra、spark-cassandra-connector

由于Apache是为Cassandra建议的分布式处理引擎，我知道有可能与Cassandra节点一起运行Spark执行器。我的问题是，驱动程序和火花连接器是否足够聪明，能够理解分区和碎片分配，以便以超聚合的方式处理数据。简单地说，执行者是否读取存储在运行执行器的节点上的分区中的数据，这样就不会像Spark在HDFS上运行时那样通过网络传输不必要的数据了吗？

浏览 11提问于2020-01-25得票数 1

回答已采纳

1回答

混合分区配置对宽转换的影响

apache-spark、apache-spark-dataset、spark-shuffle

基于洗牌分区配置的宽转换实际上是如何工作的？如果我有以下计划： spark.conf.set("spark.sql.shuffle.partitions", "5") val df = spark .read .option("inferSchema", "true") .option("header", "true") .csv("...\input.csv") df.sort("sal").take(200) 这是否意味着排序将输

浏览 4提问于2022-09-24得票数 0

3回答

阿帕奇星火中的洗牌与非洗牌合并

scala、apache-spark、distributed-computing

在将RDD写入文件之前执行以下转换有什么区别？合并(1，洗牌=真) 合并(1，洗牌=假) 代码示例： val input = sc.textFile(inputFile) val filtered = input.filter(doSomeFiltering) val mapped = filtered.map(doSomeMapping) mapped.coalesce(1, shuffle = true).saveAsTextFile(outputFile) vs mapped.coalesce(1, shuffle = false).saveAsTextFile(ou

浏览 1提问于2015-06-17得票数 6

回答已采纳

3回答

星火如何认识到哪个RDD操作需要分割成不同的阶段？

apache-spark

当星火遇到像reduceByKey这样的操作时，就创造了一个新的阶段。星火如何意识到哪一项操作需要像“reduceByKey”操作那样被分割成单独的阶段？当我添加新操作并希望它在另一个阶段运行时，我是如何实现它的？

浏览 0提问于2017-03-15得票数 3

回答已采纳

1回答

Spark Streaming中的数据局部性

apache-spark、real-time、bigdata、distributed-computing、spark-streaming

最近我一直在做Spark流媒体的性能测试。我在6个slaves中的一个上运行了receiver，并向集群提交了一个简单的字数统计应用程序(实际上我知道这种配置在实践中是不合适的，只是一个简单的测试).I分析了调度日志，发现近88%的任务被调度到receiver运行的节点上，并且局部性总是PROCESS_LOCAL，CPU利用率非常高。为什么Spark Streaming不跨集群分发数据，充分利用集群？我已经阅读了官方指南，但没有详细解释，特别是在Spark Streaming中。当任务在CPU繁忙的节点上时，是否会将流数据复制到另一个CPU空闲的节点上，并在该节点上启动新的任务？如果是这样，我

浏览 0提问于2015-07-21得票数 0

4回答

与spark中的所有其他任务相比，最后2/3的任务需要大量的时间

scala、apache-spark、hadoop-yarn、spark-dataframe、apache-spark-mllib

我正在尝试对评论做感伤的分析。程序在Spark上成功运行，但我面临的问题是在70个分区中，68个分区的时间比最后2个分区的时间缩短了约20%。我已经检查了我的数据在所有分区上是否均匀分布，甚至还检查了不同的样本数据。另外，我使用persist(StorageLevel.MEMORY_AND_DISK_SER)为所有数据帧运行了代码，并在不再需要这些数据帧时立即取消它们的持久化。我也尝试了增加和减少分区的数量，但对于最后两个任务，它仍然需要大量的时间。下面是我正在使用的当前配置 --master yarn \ --deploy-mode client \ --num-executors 15

浏览 29提问于2016-09-26得票数 1

1回答

在星火中，广泛的依赖和洗牌总是同时发生吗？

apache-spark、dependencies、shuffle

我正在读一本火花书，几乎听不懂下面的一句话。对我来说，我无法想象一个广泛依赖的案件，但我们不需要洗牌。有人能给我举个例子吗？例如，在某些情况下，当Spark已经知道数据是以某种方式分区时，具有广泛依赖性的操作不会引起混乱。

浏览 0提问于2017-05-03得票数 1

回答已采纳

1回答

将saveAsTextFile()写入多个文件，而不是一个

scala、apache-spark

我现在正在笔记本电脑上使用Spark和Scala。当我将RDD写入文件时，输出将被写入两个文件"part-00000“和"part-00001”。如何强制Spark / Scala向写入一个文件我的代码是： myRDD.map(x => x._1 + "," + x._2).saveAsTextFile("/path/to/output") 我在哪里写键，值对。

浏览 4提问于2016-02-17得票数 5

回答已采纳

1回答

如何减少Spark执行计划的总定时处理

apache-spark、pyspark、apache-spark-sql、databricks、sql-execution-plan

我刚刚开发了一个Spark应用程序，在一些算法分析过程中，我意识到执行计划需要很长时间来处理。如何优化Spark执行计划的性能？在我们的社区中，我看了几个关于这方面的问题/答案，但我觉得没有什么能说明这个实现的意义。因此，我希望得到一些社区支持，以克服我的阻塞点，或许还会给进一步的开发人员留下一个路线图。下面是关于所做努力的一些细节。我已经开发了一个星火应用程序，定期从kafka摄取事件，处理它，并将输出发送回kafka。星火算法简单地说，过滤/丰富信息，并对每一个事件，执行沉重和复杂的窗口滞后功能。星火算法在一个循环中运行，因此每个算法都根据必须处理的事件数(30m的卡夫卡保留)运行

浏览 3提问于2021-04-08得票数 3

3回答

星火数据加入问题

scala、apache-spark、hbase

代码片段下面的工作得很好。(读取CSV、读取Parquet和相互连接) //Reading csv file -- getting three columns: Number of records: 1 df1=spark.read.format("csv").load(filePath) df2=spark.read.parquet(inputFilePath) //Join with Another table : Number of records: 30 Million, total columns: 15 df2.join(broadcast(df1), c

浏览 1提问于2019-03-10得票数 3

1回答

火花2.4.0仍然有2GB的限制洗牌块大小？

java、apache-spark

我知道2GB的限制问题，但我已经将spark.maxRemoteBlockSizeFetchToMem设置为小于2GB，但我仍然看到2GB的限制被击中： 19/03/30 06:48:43 INFO CoarseGrainedExecutorBackend: Got assigned task 2008 19/03/30 06:48:43 INFO Executor: Running task 195.0 in stage 4.0 (TID 2008) 19/03/30 06:48:43 INFO ShuffleBlockFetcherIterator: Getting 289 non-emp

浏览 0提问于2019-03-30得票数 3

1回答

为什么加入星火在本地模式是如此缓慢？

apache-spark、pyspark、apache-spark-sql、spark-dataframe

我使用星火在本地模式和一个简单的连接是太长。我获取了两个数据文件:a (8列和230万行)和B(8列和120万行)，并使用A.join(B,condition,'left')连接它们，最后调用了一个操作。它创建一个包含三个阶段的单个作业，每个阶段用于两个数据文件提取，另一个用于加入。令人惊讶的是，提取数据的阶段A大约需要8分钟，而数据B则需要1分钟。几秒钟之内就会加入。我的重要配置设置是： spark.master本地的* spark.driver.cores 8 spark.executor.memory 30g spark.driver.memory 30g

浏览 0提问于2016-12-25得票数 5

回答已采纳

1回答

面向星火上小数据集的大数据泄漏

scala、apache-spark、apache-spark-sql

我正试图在NOA数据集上运行一些spark sql，如下所示：我正在尝试运行一些涉及分组和排序的查询。 df .groupBy("COUNTRY_FULL") .agg(max("rank"), last("consecutive").as("consecutive")) .withColumn("maxDays", maxDaysTornodoUdf(col("consecutive"))) .sort(col("maxDays"

浏览 5提问于2021-08-16得票数 2