Spark RDD

弹性分布式数据集(RDD)不仅仅是一组不可变的JVM(Java虚拟机) 对象的分布集,可以让你执行高速运算,而且是Apark Spark的核心。

顾名思义,该数据集是分布式的。基于某个关键字,该数据集被划分成多块,同时分发到执行结点。这样做可以使得此类数据集能够执行高速执行运算。另外,RDD将跟踪(记入日志)应用于每个块的所有转换,以加快计算速度,并在发生错误和部分数据丢失时提供回退。在这种情况下,RDD可以重新计算数据。该数据日志是另外一种抵御数据丢失的防线并且有助于数据复制。

RDD并行操作

Spark工作原理的最大优势是:每个转化并行执行,从而大大提高速度。

数据集转化通常是惰性的,这就意味着任何转换仅在调用数据集上的操作才执行,这有助于Spark优化执行。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

机器人如何进行速度倍率的调节?

用户在示教机器人轨迹时,往往会不断的调节机器人的速度倍率。这时就需要不断地去按速度倍率调节键(速度倍率+%键和速度倍率-%键 )。如何进行速度倍率的调节,如何进...

832

Apache Spark:大数据领域的下一件大事?

Apache Spark正在引起很大的热议。Databricks是为支持Spark而成立的一个公司,它从Andreessen Horowitz募集到了$ 140...

1444
来自专栏挖掘大数据

大数据分析平台 Apache Spark详解

Apache Spark是一款快速、灵活且对开发者友好的工具,也是大型SQL、批处理、流处理和机器学习的领先平台。自从 Apache Spark 2009 年在...

4910
来自专栏数据科学与人工智能

【数据科学家】SparkR:数据科学家的新利器

摘要:R是非常流行的数据统计分析和制图的语言及环境,有调查显示,R语言在数据科学家中使用的程度仅次于SQL,但大数据时代的海量数据处理对R构成了挑战。 摘要:R...

2269
来自专栏Albert陈凯

为什么之前的MapReduce系统比较慢

本文就两个问题进行讨论:1. 相比于Shark,为什么像Hive之类的传统MapReduce框架比较慢? 2. 对于细粒度的任务模型(fine-grained ...

2984
来自专栏加米谷大数据

什么是 Apache Spark?大数据分析平台详解

自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来,它已经成为这个世界上最重要的分布式大数据框架之一。S...

1503
来自专栏HappenLee的技术杂谈

流式计算与计算抽象化------《Designing Data-Intensive Applications》读书笔记15

MapReduce作业是独立于其他作业,输入与输出目录通过分布式存储系统串联。MapReduce作业的存在相互的依赖关系,前后相互依赖的作业需要将后面作业的输入...

952
来自专栏Albert陈凯

3.0Spark计算模型

Spark大数据处理:技术、应用与性能优化 第3章 Spark计算模型 创新都是站在巨人的肩膀上产生的,在大数据领域也不例外。微软的Dryad使用DAG执行模...

3217
来自专栏加米谷大数据

大数据技术学习路线

1112
来自专栏CSDN技术头条

Apache Spark 1.6发布

今天我们非常高兴能够发布Apache Spark 1.6,通过该版本,Spark在社区开发中达到一个重要的里程碑:Spark源码贡献者的数据已经超过1000人,...

2038

扫码关注云+社区

领取腾讯云代金券