前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark——RDD

Spark——RDD

作者头像
羊羽shine
发布2019-08-08 09:53:43
6170
发布2019-08-08 09:53:43
举报
文章被收录于专栏:Golang开发

概述

全称为Resilient Distributed Datasets,弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行计算的集合。RDD在逻辑上是一个数据集,在物理上则可以分块分布在不同的机器上并发运行。RDD允许用户在执行多个查询时显示的将工作缓存在内存中,后续的查询能够重用工作集,这极大的提升了查询速度。 在Spark 中,对数据的所有操作不外乎创建RDD,转换已有RDD以及调用RDD操作进行求值,每个RDD都被分为多个分区,这些分区运行在集群的不同节点上,RDD可以包含Python,Java,Scala中任意类型的对象,甚至可以是用户自定义对象。 RDD是Spark的核心,也是整个Spark的架构基础。它的特性可以总结如下:

  • 它是不变的数据结构存储
  • 它是支持跨集群的分布式数据结构
  • 可以根据数据记录的key对结构进行分区
  • 提供了粗粒度的操作,且这些操作都支持分区
  • 它将数据存储在内存中,从而提供了低延迟性

弹性

弹性即是RDD的每个分区的大小都是不固定的,不像hdfs那样,每个数据块就是128MB。因此,RDD是有弹性的。分布式即是RDD的每个分区分布在集群的各个节点上,而非集中存在于一个节点。

创建RDD

并行集合(数组)

方法:parallelize

代码语言:javascript
复制
    val conf = new SparkConf().setAppName("CreateRDDApp").setMaster("local")
     val sc = new  SparkContext(conf)
     val rdd  = sc.makeRDD(Array(1,2,3,4,5))
     val r = sc.parallelize(Array(1,2,3,4,5))

image.png

文件系统中加载

SparkContext通过textFile()读取数据生成内存中的RDD 支持的数据类型:

  • 本地文件系统(file://)
  • 分布式文件系统HDFS加载数据(hdfs://)
  • 云端Amazon S3
代码语言:javascript
复制
    // 通过外部数据
    sc.textFile("") // 本地路径 或者hdfs

image.png

操作

支持两种操作转化操作和行动操作。RDD的转化操作是返回一个新的RDD的操作,map和filter 行动操作则是驱动器程序返回结果或把结果写入外部系统的操作 count,first.

image.png

Spark采用惰性计算模式,RDD只有第一次在一个行动操作中得到时,才会真正计算,spark可以优化整个计算过程,默认情况下,spark的RDD会在每次他们进行行动操作是重新计算。 如果需要多个行动中重用一个RDD,可以使用RDD.persist()让Spark把这个RDD缓存下来。

image.png

image.png

filter过滤

筛选出满足函数func的元素,并返回一个新的数据集

image.png

image.png

map

将每个元素传递到函数func中,并将结果返回为一个新的数据集

image.png

image.png

image.png

image.png

flatMap(func)

与map()相似,但每个输入元素都可以映射到0或多个输出结果

image.png

image.png

groupByKey()

应用于(K,V)键值对的数据集时,返回一个新的(K,Iterable)形式的数据集

image.png

reduceByKey(func)

应用于(K,V)键值对的数据集时,返回一个新的(K,V)形式的数据集,其中每个值是将每个key传递到函数func中进行聚合后的结果。

  • 进行分组得到(key,value-list)
  • 根据传入的函数再将value-list做操作

image.png

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019.08.07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概述
  • 弹性
  • 创建RDD
    • 并行集合(数组)
      • 文件系统中加载
      • 操作
        • filter过滤
          • map
            • flatMap(func)
              • groupByKey()
                • reduceByKey(func)
                相关产品与服务
                大数据
                全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档