首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用dataset进行分组

如何使用dataset进行分组
EN

Stack Overflow用户
提问于 2017-06-07 14:12:38
回答 3查看 18K关注 0票数 7

我有一个使用rdd这样做的请求:

代码语言:javascript
复制
val test = Seq(("New York", "Jack"),
    ("Los Angeles", "Tom"),
    ("Chicago", "David"),
    ("Houston", "John"),
    ("Detroit", "Michael"),
    ("Chicago", "Andrew"),
    ("Detroit", "Peter"),
    ("Detroit", "George")
  )
sc.parallelize(test).groupByKey().mapValues(_.toList).foreach(println)

结果是:

(纽约,列表(Jack))

(底特律,列表(迈克尔,彼得,乔治))

(洛杉矶,List(Tom))

(休斯顿,List(约翰))

(芝加哥,列表(大卫,安德鲁))

如何在spark2.0中使用dataset?

我有一个使用自定义函数的方法,但是感觉太复杂了,有没有简单的点方法?

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44404817

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档