(SELECT friend_id FROM user_friend_list WHERE user_id = '13' and and is_delete = 'No')INTERSECT(SELECT friend_id FROM user_friend_list WHERE user_id = '20' and
我有两个RDDs,每个RDDs都是一组包含重复项的字符串。我想找到这两组保持重复的交集。示例:RDD2 : a, a, b, c, c
我想要的交集是集合a, b, c, c,即交集将包含每个元素,这是它在这两个集合中存在的最小次数。是否有一种方法可以使用其他转换和/或交集转换来有效地计算交集?我试图避免算法上这样做,这不太可能像火花法那样高效。(对于感兴趣的人,我试图计算一组文件的 )。