码的一手好代码-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

码的一手好代码

专栏成员

68

文章

96375

阅读量

18

订阅数

Spark中的持久化

文件存储 spark 缓存 java 存储

Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速度会加速 10 倍）。缓存是迭代算法和快速的交互式使用的重要工具。

俺也想起舞

2019-11-27

7150

Spark内部原理

mapreduce 文件存储缓存 spark 编程算法

Spark中的Shuffle、宽依赖窄依赖、RDD持久化、共享变量

俺也想起舞

2019-07-24

7650

Hive概念以及架构介绍

大数据 hive mapreduce 文件存储 jdbc

Hive架构包括如下组件：CLI（command line interface）、JDBC/ODBC、Thrift Server、Hive WEB Interface（HWI）、Metastore和Driver（Complier、Optimizer和Executor）

俺也想起舞

2019-07-24

7130

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态