我有一个使用rdd这样做的请求:
val test = Seq(("New York", "Jack"),
("Los Angeles", "Tom"),
("Chicago", "David"),
("Houston", "John"),
("Detroit", "Michael"),
("Chicago", "Andrew"),
("Detroit", "Peter"),
("Detroit", "George")
)
sc.parallelize(test).groupByKey().mapValues(_.toList).foreach(println)结果是:
(纽约,列表(Jack))
(底特律,列表(迈克尔,彼得,乔治))
(洛杉矶,List(Tom))
(休斯顿,List(约翰))
(芝加哥,列表(大卫,安德鲁))
如何在spark2.0中使用dataset?
我有一个使用自定义函数的方法,但是感觉太复杂了,有没有简单的点方法?
https://stackoverflow.com/questions/44404817
复制相似问题