分区数的确定, 和对数组中的元素如何进行分区
// 1.确定分区数:
override def defaultParallelism(): Int = scheduler.conf.getInt("spark.default.parallelism...作用
将每一个分区的元素合并成一个数组,形成新的 RDD 类型是RDD[Array[T]]
2....案例:创建一个 4 个分区的 RDD,并将每个分区的数据放到一个数组
// 1.创建
scala> var rdd1 = sc.parallelize(Array(10,20,30,40,50,60),...需要注意的是, 在 Spark 中, 两个 RDD 的元素的数量和分区数都必须相同, 否则会抛出异常....案例具体过程:计算每个 key 的平均值
// 1.创建一个pairRDD
scala> val rdd = sc.parallelize(List(("a",3),("a",2),("c",4),