定义是:
RDD是不可变的分布式对象集合。
我不太明白这是什么意思。它与存储在硬盘上的数据(分区对象)一样吗?如果是这样,那么为什么RDD可以有用户定义的类(如java、scala或python)?
从这个链接:https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch03.html它提到:
用户以两种方式创建RDDs :通过加载外部数据集,或者通过在其驱动程序中分发对象集合(例如,列表或集合
我对RDD的理解以及与spark和hadoop的关系真的很困惑。
有人能帮帮忙吗。
https://stackoverflow.com/questions/34433027
复制相似问题