利用Spark RDD实现分组并排序

天策

发布于 2018-06-22 13:58:24

4.8K0

发布于 2018-06-22 13:58:24

文章被收录于专栏：行者悟空行者悟空

摘要

本文将介绍利用Spark RDD实现分组并排序。

前言

被朋友问到Spark分组并排序怎么实现？当时，本人觉得So-Easy的问题。因为在MapReduce也会有类似的需求，相较于MapReduce，那Spark的实现简直简单爆了。but，依然阴沟翻船，具体思路是没有错的，但在纸上描述代码的时候出现了错误，这其实就是归根于用IDE的代价吧。好多东西，不需要刻意的去记忆。反思... ...所以在ide上手动实现了一遍Spark RDD 分组并排序，以示警戒。

思路

思路很简单，就是按照key分组，并且分组完成后将其每组内部进行分组排序。涉及到的算子有两个：groupByKey & mapValues

代码实现

object RDDTest {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("RDDTest")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("a",1),("a",2),("a",3),("a",4),("b",5),("b",6),("b",7),("b",8)))
    //根据key分组并内部降序
    rdd1.groupByKey().mapValues(f=>{
      //分组内部排序的两种方式
      f.toList.sorted.reverse
     // f.toList.sortWith(_>_)
    }).foreach(println)
    sc.stop()
  }
}

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2017年04月19日，如有侵权请联系 cloudcommunity@tencent.com 删除

spark

mapreduce

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

spark

mapreduce

登录后参与评论

0 条评论

热度

利用Spark RDD实现分组并排序

利用Spark RDD实现分组并排序

前言

思路

代码实现

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐