首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)论文 | ApacheCN

编程者可以通过对稳定存储的数据进行转换操作(即 transformations, 比如 map 和 filter 等)来得到一个或者多个 RDDs....p的所有数据 partitioner() 返回这个RDD是hash还是range分区的元数据信息 表三: Spark 中表达 RDDs 的接口 在设计如何表达 RDDs 之间依赖的接口是一个非常有意思的问题...我们发现将依赖定义成两种类型就足够了: 窄依赖, 表示父亲 RDDs 的一个分区最多被子 RDDs 一个分区所依赖. 宽依赖, 表示父亲 RDDs 的一个分区可以被子 RDDs多个子分区所依赖....比如, map 操作是一个窄依赖, join 操作是一个宽依赖操作(除非父亲 RDDs 已经被 hash 分区), 图四显示了其他的例子: ?...虽然目前 spark 中所有的计算都是响应 driver 程序中调用的 action 操作, 但是我们也是需要尝试在集群中调用 lookup 操作, 这种操作是根据 key 来随机访问已经 hash 分区

98490

【Spark教程】核心概念RDD

表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作 ( 如: map, join, filter, groupBy 等),通过这种转换操作,新的RDD则包含了如何从其他...缓存 如果在应用程序中多次使用同一个RDD,可以将该RDD缓存起来,该RDD只有在第一次计算的时候会根据血缘关系得到分区的数据,在后续其他地方用到该RDD的时候,会直接从缓存处取而不用再根据血缘关系计算...2)如果被Checkpoint,则从Checkpoint处恢复数据;3)根据血缘关系计算分区的数据。...在Spark中,只有遇到Action,才会执行RDD的计算(即懒执行),这样在运行时可以通过管道的方式传输多个转换。...Driver中定义了一个或多个RDD,并调用RDD上的action,Worker则执行RDD分区计算任务。

3.4K00

spark运行原理简单介绍和一些总结

宽依赖:一个父RDD的一个partition被多个子RDD的partition使用。 是否会发生shuffle操作,宽依赖会发生shuffle操作。...也可以看有没有发生combine操作,不同的parititons被多个子RDD使用,必然发生合并操作。...parititons的个数 5,RDD.persist():持久化 默认每次在RDDs上进行action操作,spark都重新计算RDDs,如果想重复利用一个RDDs,可以使用RDD.persisit...6,RDDs的血统关系图:spark维护者RDDS之间的依赖关系的创建关系,叫做血统关系图。Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。...上面就是一个简单的血统图,优势:知道数据的操作记录,如果其中某一步骤的RDD丢失了,那么可根据血统关系图知道数据是怎么来的,可正向可反向,进而可恢复数据。

59210

Spark的RDDs相关内容

RDDs的介绍 Driver program main()方法,RDDs的定义和操作 管理很多节点,称作executors ?...contains(“abc”)) //word就代表迭代元素 flatMap():出入一个复杂元素,输出多个简单元素,类似数据的‘压扁’,按照一定的规则(指定函数) scala> val lines =...上述图示中经过了个操作最后生成了一个RDD,如果badLinesRDD出错数据丢失,那么由于存在完整的血统关系图,所以可以将其恢复 延迟计算(Lazy Evaluation) Spark对RDDs的计算时...org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[6] at parallelize at :24//可以求每个人的成绩之和+课程数目(即一次计算多个指标...的介绍:重点Transformations,Actions RDDs的特性:重点是血统关系图和延迟[lazy]计算 键值对RDDs 后续 Spark的架构 Spark的运行过程 Spark程序的部署过程

54420

风控规则引擎(二):多个条件自由组合的实现,如何将 Java 字符串转换成 Java 对象

上篇回顾 在上一篇中介绍了一个单独的动态表达式是如何执行的,这里讲一下多个表达式不同组合情况下的实现。...这里主要介绍下面 2 种情况的设计,其他可自行扩展 单层级的多个条件的逻辑组合 多层级的多个条件的逻辑组合 表达式的设计 在上一篇中使用下面的格式表示了单个表示式,这种格式无法表示多个表达式组合的情况。...{ "ruleParam": "芝麻分", "operator": "大于", "args": ["650"] } 针对这种多个表达式多层级的情况,修改表达式的定义,增加逻辑组合的设计 单层级多个表达式组合...600"] }, { "type": "expression", "ruleParam": "征信", "operator": "不是", "args": ["失信"] } ], } 多层级多个表达式组合...MemoryClassLoader(classBytes)) { return classLoader.loadClass(name); } } } 总结 这是写的规则引擎的第二篇,主要讲一下 多个表示式自由组合是如何处理的

33110

整合Kafka到Spark Streaming——代码示例和挑战

本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。...前不久,雅虎的Bobby Evans和Tom Graves曾发表一个“Spark and Storm at Yahoo!”的演讲,在这个演讲中,他们对比了两个大平台,并提供了一些选择参考。...类似的,Hortonworks的P.Taylor Goetz也分享名为Apache Storm and Spark Streaming Compared的讲义。...特别是我想了解如何去做: 从kafaka中并行读入。在Kafka,一个话题(topic)可以有N个分区。理想的情况下,我们希望在多个分区上并行读取。...在我们这个例子里,我们将按照推荐来重用Kafka生产者实例,通过生产者池跨多个RDDs/batches。我通过Apache Commons Pool实现了这样一个工具,已经上传到GitHub。

1.4K80

Spark Streaming如何使用checkpoint容错

曾经在一个项目里面用过阿里改造后的JStrom,整体感受就是编程略复杂,在不使用Trident Api的时候是不能保证准确一次的数据处理的,但是能保证不丢数据,但是不保证数据重复,我们在使用期间也出现几次问题...程序中的一系列Dstream操作 (3)没有完成的批处理 在运行队列中的批处理但是没有完成 B:消费数据的checkpoint 保存生成的RDD到一个可靠的存储系统中,常用的HDFS,通常有状态的数据横跨多个...checkpoint通常是用来容错有状态的数据处理失败的场景 大多数场景下没有状态的数据或者不重要的数据是不需要激活checkpoint的,当然这会面临丢失少数数据的风险(一些已经消费了,但是没有处理的数据) 如何在代码里面激活...(Seconds(batchDuration*5)) rdds.foreachRDD(rdd=>{ //可以针对rdd每次调用checkpoint //注意上面设置了,定时持久checkpoint...checkpoint上,因为checkpoint的元数据会记录jar的序列化的二进制文件,因为你改动过代码,然后重新编译,新的序列化jar文件,在checkpoint的记录中并不存在,所以就导致了上述错误,如何解决

2.7K71

什么是RDD?带你快速了解Spark中RDD的概念!

- 1) A list of partitions 一个分区列表,一个rdd有多个分区,后期spark任务计算是以分区为单位,一个分区就对应上一个task线程。...- 3)A list of dependencies on other RDDs 一个rdd会依赖于其他多个rdd,这里就涉及到rdd与rdd之间的依赖关系,后期spark任务的容错机制就是根据这个特性而来...RDDs之间存在依赖,RDD的执行是按照血缘关系延时计算的。如果血缘关系较长,可以通过持久化RDD来切断血缘关系。...3.3 依赖 RDDs通过操作算子进行转换,转换得到的新RDD包含了从其他RDDs衍生所必需的信息,RDDs之间维护着这种血缘关系,也称之为依赖。...3.4 缓存 如果在应用程序中多次使用同一个RDD,可以将该RDD缓存起来,该RDD只有在第一次计算的时候会根据血缘关系得到分区的数据,在后续其他地方用到该RDD的时候,会直接从缓存处取而不用再根据血缘关系计算

2.5K52

Spark Core快速入门系列(1) | 什么是RDD?一文带你快速了解Spark中RDD的概念!

A list of partitions   多个分区. 分区可以看成是数据集的基本组成单位.   对于 RDD 来说, 每个分区都会被一个计算任务处理, 并决定了并行计算的粒度.   ...每个 RDD 被切分成多个分区(partition), 每个分区可能会在集群中不同的节点上进行计算. RDD特点 1....弹性 存储的弹性:内存与磁盘的自动切换; 容错的弹性:数据丢失可以自动恢复; 计算的弹性:计算出错重试机制; 分片的弹性:可根据需要重新分片。 2....依赖(血缘)   RDDs 通过操作算子进行转换,转换得到的新 RDD 包含了从其他 RDDs 衍生所必需的信息,RDDs 之间维护着这种血缘关系,也称之为依赖。...缓存   如果在应用程序中多次使用同一个 RDD,可以将该 RDD 缓存起来,该 RDD 只有在第一次计算的时候会根据血缘关系得到分区的数据,在后续其他地方用到该 RDD 的时候,会直接从缓存处取而不用再根据血缘关系计算

48110
领券