我是Python和Spark的新手。我有一对包含(key,List)的RDD,但是有些值是重复的。RDD是表单(zipCode,streets),我想要一对不包含重复项的RDD。我正在尝试使用python来实现它。有人能帮忙吗。
(邮编,街道)
streetsGroupedByZipCode = zipCodeStreetsPairTuple.groupByKey()
dayGroupedHosts.take(2)
[(123456, <pyspark.resultiterable.ResultIterable at 0xb00518ec>),
(523900, <pyspark.resultiterable.ResultIterable at 0xb005192c>)]
zipToUniqueStreets = streetsGroupedByZipCode.map(lambda (x,y):(x,y.distinct()))上边不起作用
发布于 2015-06-16 13:56:00
我会这样做:
streetsGroupedByZipCode.map(x => (x._1, x._2.groupBy(_._2).map(_._2.head)))在元组上不同并不像您说的那样有效,所以按tuple分组列表,最后只获得第一个元素。
val data = Seq((1, Seq((1, 1), (2, 2), (2, 2))), (10, Seq((1, 1), (1, 1), (3, 3))), (10, Seq((1, 2), (2, 4), (1, 2))))给予:
(10,Map(1 -> 1, 3 -> 3))
(1,Map(2 -> 2, 1 -> 1))
(10,Map(1 -> 2, 2 -> 4))https://stackoverflow.com/questions/30861993
复制相似问题