我是阿帕奇火花的初学者。我想用下面的代码将两个RDD过滤到结果RDD中
def runSpark(stList:List[SubStTime],icList:List[IcTemp]): Unit ={
val conf = new SparkConf().setAppName("OD").setMaster("local[*]")
val sc = new SparkContext(conf)
val st = sc.parallelize(stList).map(st => ((st.productId,st.routeNo),st)).groupByKey()
val ic = sc.parallelize(icList).map(ic => ((ic.productId,ic.routeNo),ic)).groupByKey()
//TODO
//val result = st.join(ic).mapValues( )
sc.stop()
}以下是我想做的事
List[ST] ->map ->Map(Key,st) ->groupByKey ->Map(Key,List[st])
List[IC] ->map ->Map(Key,ic) ->groupByKey ->Map(Key,List[ic])
STRDD join ICRDD get Map(Key,(List[st],List[ic]))我有一个函数比较listST和listIC获取列表结果包含SubStTime和IcTemp信息
def calcIcSt(st:List[SubStTime],ic:List[IcTemp]): List[result]我不知道如何使用mapvalue或其他方法来获得结果
谢谢
发布于 2016-01-19 08:00:00
val result = st.join(ic).mapValues( x => calcIcSt(x._1,x._2) )https://stackoverflow.com/questions/34870834
复制相似问题