首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >什么是spark中的RDD

什么是spark中的RDD
EN

Stack Overflow用户
提问于 2015-12-23 18:01:15
回答 10查看 38K关注 0票数 46

定义是:

RDD是不可变的分布式对象集合。

我不太明白这是什么意思。它与存储在硬盘上的数据(分区对象)一样吗?如果是这样,那么为什么RDD可以有用户定义的类(如java、scala或python)?

从这个链接:https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch03.html它提到:

用户以两种方式创建RDDs :通过加载外部数据集,或者通过在其驱动程序中分发对象集合(例如,列表或集合

我对RDD的理解以及与spark和hadoop的关系真的很困惑。

有人能帮帮忙吗。

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34433027

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档