Apache Spark: map vs mapPartitions？_Apache Spark: count vs head(1).isEmpty_在Apache Spark中的groupBy之后聚合Map中的所有列值 - 腾讯云开发者社区

、、、

RDD的map和mapPartitions方法？并且确实flatMap表现得像map或者像mapPartitions什么？谢谢。(编辑)即(在语义上或在执行方面)之间的区别是什么 def map[A, B](rdd: RDD[A], fn: (A => B)) rdd.mapPartitions({ iter: Iterator[A] =

浏览 88提问于2014-01-17得票数 154

回答已采纳

1回答

Pyspark体验

、、

那里。我对myself非常陌生，我自己也在学习UDF。我意识到UDF有时会减慢代码的速度。我想知道你的经历。您应用了什么UDF功能(不能仅用Pyspark代码实现)。有什么有用的UDF函数可以帮助您清理数据吗？除了Pyspark文档之外，还有什么资源可以帮助我学习UDF函数吗？

浏览 8提问于2022-03-03得票数 0

1回答

不同之处: mapPartitions内的对象实例化与外部的

、

我是Apache Spark的初学者。Spark的RDD API提供了像map、mapPartitions这样的转换函数。我可以理解，mapPartitions适用于RDD中的每个元素，但mapPartitions适用于每个分区，许多人都提到过，在我们想要创建/实例化对象的地方，map是理想的用法，并提供了如下示例：val res = rddD

浏览 2提问于2018-02-26得票数 3

回答已采纳

2回答

Spark RDD- map vs mapPartitions

、、、

我通读了map和mapPartitions之间的理论差异，非常清楚什么时候在不同的情况下使用它们。但是我下面描述的问题更多的是基于GC活动和内存(RAM)。因此，RDDorg.apache.spark.sql.Row的输入将被映射到RDDString。但是使用这种方法，将为RDD的每一行创建映射对象。因此，创建如此大量的对象可能会增加GC活动。为了解决上面的问题，我想到了用mapPartitions。因此，对象的数量等于分区的数量。mapPartitions提供迭代器作为输入，并接受r

浏览 1提问于2016-12-01得票数 9

2回答

任务不可序列化: Spark

、、

at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala(SparkContext.scala:2326) at org.apach

浏览 0提问于2020-04-30得票数 1

1回答

将Spark* streaming数据流写入MongoDB*

、、、

我在Spark中有一个带有特定模式的流媒体Dataset。

浏览 0提问于2018-06-11得票数 3

1回答

在驱动程序代码中使用不可序列化对象时出现序列化错误

: Task not serializable at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:158) at org.apache.spark.SparkContext.clean(SparkContext

浏览 1提问于2015-06-10得票数 1

回答已采纳

1回答

无法通过mapPartitions()在变量中存储dataset的行元素

、、

我正在尝试创建一个Spark数据集，然后使用mapPartitions，尝试访问它的每个元素并将其存储在变量中。使用下面的代码来实现相同的功能：import org.apache.spark.sql.types._ val df = spark.sql(&

浏览 1提问于2019-11-10得票数 1

2回答

将每个分区的字符串串联为单个字符串。

、

我有一个包含文件行的RDD。我希望每个分区不包含行，而是包含连接行。例如： line 1 line n/2+1 . . . .上面的Figure1显示了我的RDD，它是在我们使用sc.textFile()方法时生成的。我想从上面的图1转到下面的图(图2)：

浏览 0提问于2016-02-20得票数 1

回答已采纳

1回答

如何在Spark* worker节点中连接到NEO4J？*

、、、

我需要在spark map函数中得到一个小的子图。我试过使用AnormCypher和NEO4J-SPARK-CONNECTOR，但都不起作用。Exception in thread "main" org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCle

浏览 7提问于2017-03-09得票数 2

2回答

用于CCO抛出NegativeArraySizeException的Apache* Mahout SimilarityAnalysis*

、、、

org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$20.apply(RDD.scala:710) at org.apache.spark.rdd.MapPartitionsRD

浏览 28提问于2017-04-20得票数 1

1回答

SparkException:无法在类上序列化的任务: org.apache.avro.generic.GenericDatumReader

、、、

dataType.asInstanceOf[StructType] val myList = iterator.toListorg.apache.spark.SparkException(SparkContext.scala:2287) at

浏览 0提问于2020-06-10得票数 1

回答已采纳

1回答

火花RDD抛出NullPointerException

、、、、

val rdd = ssc.sparkContext.parallelize(randomProducts) at org.apache.spark.sql.catalyst.JavaTypeInference$.org$apache$spark$sql$catalyst$JavaTypeInference:995) at org.apache</

浏览 3提问于2016-05-05得票数 2

回答已采纳

1回答

无法加载拼花文件(Parquet类型不支持: INT32 (UINT_8);)

、、

at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.org$apache$spark$$$anonfun$9.apply(ParquetFileFormat.scala:603) at org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$23.apply(RDD.scal

浏览 5提问于2020-10-16得票数 5

回答已采纳

1回答

SparkR窗口函数:错误“任务不可序列化”

、、、

:304)at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:122) at org.apache.spark.SparkContext.cl

浏览 0提问于2016-01-22得票数 2

1回答

包含mapPartitions的反向映射RDD对象

、

我正在尝试将RDD tuple的mapPartitions内部的元素映射到RDD tuple的外部元素。我尝试了各种方法，但总是遇到问题(不允许使用火花、数据帧/爆炸等)。我想要反向映射的数据如下所示( reducedRDD包含的内容)： org.apache.spark.rdd.RDD[(Int, Double, (Int, Double))][error] found

浏览 21提问于2021-03-19得票数 0

1回答

从RDD的元素创建SparseVector

、、、

使用Spark，我在Scala中有一个val rdd = RDD[(x: Int, y:Int), cov:Double]类型的数据结构，其中RDD的每个元素表示一个矩阵的元素，其中x表示行，y表示列，因此，我决定首先将rdd转换为RDD[x: Int, (y:Int, cov:Double)]，然后使用groupByKey将特定行的所有元素放在一起，如下所示：val spvec = {(x: Int,y: Iterable[(Int, Double)]) => new Spa

浏览 2提问于2016-09-14得票数 0

回答已采纳

1回答

火花:所有键的值之和？

、

编辑2/24/2016:var sumAttributeA = data.map{ case(id, attributeList) => attributeList(0)}.sumvar sumAttributeC= data.map{ case(id, attributeList) => attributeLi

浏览 4提问于2016-02-23得票数 0

回答已采纳

1回答

如何将ojai配置从驱动程序传递给火花执行器？

、、

{ val list = iterator .toList - object (class com.example.App$$anonfun$1, <function1>) at org.apache.spark.serializer.SerializationDebugger$.improveEx

浏览 1提问于2021-09-24得票数 0

回答已采纳

1回答

影响preservesPartitioning RDD真/假给出了相同的mapPartitions结果

、、

这里是一个人为的琐碎例子，不管我是否将true或false传递给mapPartitions，对于新的RDD，每个分区的数据分区仍然是相同的，即使我改变了K，V的K值，那么，意义是什么呢？import org.apache.spark.HashPartitionerdef myfunc(iter: Iterator[(String,(Int, String))]) : Iterator[(String, (Int,String))] = { iter.

浏览 0提问于2020-01-02得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云