首页
学习
活动
专区
工具
TVP
发布

Spark生态圈

专栏作者
35
文章
45834
阅读量
17
订阅数
基于SparkSQL实现的一套即席查询服务
支持的数据源:hdfs、hive、hbase、kafka、mysql、es、mongo
UFO
2018-12-28
1.9K0
[spark] RDD缓存源码解析
我们可以利用不同的存储级别存储每一个被持久化的RDD。可以存储在内存中,也可以序列化后存储在磁盘上等方式。Spark也会自动持久化一些shuffle操作(如reduceByKey)中的中间数据,即使用户没有调用persist方法。这样的好处是避免了在shuffle出错情况下,需要重复计算整个输入。
UFO
2018-09-04
1K0
[spark] TaskScheduler 任务提交与调度源码解析
在DAGScheduler划分为Stage并以TaskSet的形式提交给TaskScheduler后,再由TaskScheduler通过TaskSetMagager对taskSet的task进行调度与执行。
UFO
2018-09-04
9270
[spark] 数据本地化及延迟调度
Spark数据本地化即移动计算而不是移动数据,而现实又是残酷的,不是想要在数据块的地方计算就有足够的资源提供,为了让task能尽可能的以最优本地化级别(Locality Levels)来启动,Spark的延迟调度应运而生,资源不够可在该Locality Levels对应的限制时间内重试,超过限制时间后还无法启动则降低Locality Levels再尝试启动……
UFO
2018-09-04
1.1K0
[spark] DAGScheduler划分stage源码解析
Spark Application只有遇到action操作时才会真正的提交任务并进行计算,DAGScheduler 会根据各个RDD之间的依赖关系形成一个DAG,并根据ShuffleDependency来进行stage的划分,stage包含多个tasks,个数由该stage的finalRDD决定,stage里面的task完全相同,DAGScheduler 完成stage的划分后基于每个Stage生成TaskSet,并提交给TaskScheduler,TaskScheduler负责具体的task的调度,在Worker节点上启动task。
UFO
2018-09-04
8150
[spark] Task执行流程
在文章TaskScheduler 任务提交与调度源码解析 中介绍了Task在executor上的逻辑分配,调用TaskSchedulerImpl的resourceOffers()方法,得到了TaskDescription序列的序列Seq[Seq[TaskDescription]],即对某个task需要在某个executor上执行的描述,仅仅是逻辑上的,还并未真正到executor上执行,本文将从源码角度解析Task是怎么被分配到executor上执行的。
UFO
2018-09-04
9100
[spark] DAGScheduler 提交stage源码解析
DAGScheduler在划分完Stage后([spark] DAGScheduler划分stage源码解析 ),将会通过submitStage(finalStage)来提交stage:
UFO
2018-09-04
6090
自动化管理工具Rundeck
Rundeck(http://rundeck.org)是开源软件,可以帮助你自动化管理日常操作程序,Rundeck提供了许多特性,将缓解耗时的繁重任务。Rundeck允许在任意数量的节点上运行,并配套有非常方便的可视化界面,Rundeck还包括其他功能,如:访问控制、工作流构建、调度、日志记录等。另外有类似作用的有cdh的oozie,但个人觉得这个用起来来还方便简洁些。
UFO
2018-09-04
1.8K0
[spark] RDD解析
每个具体的RDD都得实现compute 方法,该方法接受的参数之一是一个Partition 对象,目的是计算该分区中的数据。 我们通过map方法来看具体的实现:
UFO
2018-09-04
5470
爬虫框架Scrapy(例子)前言安装实战
最近看到一篇非常不错的关于新词发现的论文--互联网时代的社会语言学:基于SNS的文本数据挖掘,迫不及待的想小试牛刀。得先有语料啊……
UFO
2018-09-04
3900
Spark Streaming管理Kafka偏移量前言从ZK获取offset
为了让Spark Streaming消费kafka的数据不丢数据,可以创建Kafka Direct DStream,由Spark Streaming自己管理offset,并不是存到zookeeper。启用S​​park Streaming的 checkpoints是存储偏移量的最简单方法,因为它可以在Spark的框架内轻松获得。 checkpoints将应用程序的状态保存到HDFS,以便在故障时可以恢复。如果发生故障,Spark Streaming应用程序可以从checkpoints偏移范围读取消息。
UFO
2018-09-04
1.8K0
Elasticsearch5.6搭建及拼音中文混合搜索实现
功能 分布式的搜索引擎和数据分析引擎 全文检索,结构化检索,数据分析 对海量数据进行近实时的处理 环境搭建 从官网下载压缩包 elasticsearch-5.6.1.tar.gz; 解压 tar -zxvf elasticsearch-5.6.1.tar.gz $ES_HOME 因es只能由除root以外的用户启动,则给予相应的权限,如给common用户,chown -R common:root elasticsearch-5.6.1 配置,vi $ES_HOME/config/elasticsearch.
UFO
2018-09-04
2.3K0
SparkSQL常用操作
5、测试dataframe的read和save方法(注意load方法默认是加载parquet文件)
UFO
2018-09-04
4430
[spark] spark推测式执行
推测任务是指对于一个Stage里面拖后腿的Task,会在其他节点的Executor上再次启动这个task,如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果,同时会干掉其他Executor上运行的实例。spark推测式执行默认是关闭的,可通过spark.speculation属性来开启。
UFO
2018-08-29
1.1K0
[spark] 调度模式(FIFO&FAIR)
spark应用程序的调度体现在两个地方,第一个是Yarn对spark应用间的调度,第二个是spark应用内(同一个SparkContext)的多个TaskSetManager的调度,这里暂时只对应用内部调度进行分析。
UFO
2018-08-29
1.8K0
[spark] Checkpoint 源码解析
在spark应用程序中,常常会遇到运算量很大经过很复杂的 Transformation才能得到的RDD即Lineage链较长、宽依赖的RDD,此时我们可以考虑将这个RDD持久化。
UFO
2018-08-29
6580
[spark] Task成功执行的结果处理
在文章Task执行流程 中介绍了task是怎么被分配到executor上执行的,本文讲解task成功执行时将结果返回给driver的处理流程。
UFO
2018-08-29
1.4K0
[spark streaming] DStream 和 DStreamGraph 解析
Spark Streaming 是基于Spark Core将流式计算分解成一系列的小批处理任务来执行。
UFO
2018-08-29
6760
[spark streaming] ReceiverTracker 数据产生与存储
在Spark Streaming里,总体负责任务的动态调度是JobScheduler,而JobScheduler有两个很重要的成员:JobGenerator 和 ReceiverTracker。JobGenerator 负责将每个 batch 生成具体的 RDD DAG ,而ReceiverTracker负责数据的来源。
UFO
2018-08-29
5600
[spark streaming] 动态生成 Job 并提交执行
Spark Streaming Job的生成是通过JobGenerator每隔 batchDuration 长时间动态生成的,每个batch 对应提交一个JobSet,因为针对一个batch可能有多个输出操作。
UFO
2018-08-29
1.1K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档