我想从Scala列表或数组(不是RDD)中随机采样,样本大小可以比列表或数组的长度长得多,我如何有效地执行此?因为样本大小可能非常大,并且采样(在不同的列表/数组上)需要进行大量的次数。
我知道对于Spark RDD我们可以使用takeSample()来做,有没有Scala list/array的等价物?
非常感谢。
https://stackoverflow.com/questions/32932229
相似问题