Spark生态圈-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark生态圈

专栏成员

35

文章

47234

阅读量

17

订阅数

基于SparkSQL实现的一套即席查询服务

支持的数据源：hdfs、hive、hbase、kafka、mysql、es、mongo

2018-12-28

2K0

[spark] RDD缓存源码解析

我们可以利用不同的存储级别存储每一个被持久化的RDD。可以存储在内存中，也可以序列化后存储在磁盘上等方式。Spark也会自动持久化一些shuffle操作（如reduceByKey）中的中间数据，即使用户没有调用persist方法。这样的好处是避免了在shuffle出错情况下，需要重复计算整个输入。

2018-09-04

1.1K0

[spark] TaskScheduler 任务提交与调度源码解析

在DAGScheduler划分为Stage并以TaskSet的形式提交给TaskScheduler后，再由TaskScheduler通过TaskSetMagager对taskSet的task进行调度与执行。

2018-09-04

9500

[spark] 数据本地化及延迟调度

Spark数据本地化即移动计算而不是移动数据，而现实又是残酷的，不是想要在数据块的地方计算就有足够的资源提供，为了让task能尽可能的以最优本地化级别（Locality Levels）来启动，Spark的延迟调度应运而生，资源不够可在该Locality Levels对应的限制时间内重试，超过限制时间后还无法启动则降低Locality Levels再尝试启动……

2018-09-04

1.1K0

[spark] DAGScheduler划分stage源码解析

Spark Application只有遇到action操作时才会真正的提交任务并进行计算，DAGScheduler 会根据各个RDD之间的依赖关系形成一个DAG，并根据ShuffleDependency来进行stage的划分，stage包含多个tasks，个数由该stage的finalRDD决定，stage里面的task完全相同，DAGScheduler 完成stage的划分后基于每个Stage生成TaskSet，并提交给TaskScheduler，TaskScheduler负责具体的task的调度，在Worker节点上启动task。

2018-09-04

8310

[spark] Task执行流程

在文章TaskScheduler 任务提交与调度源码解析中介绍了Task在executor上的逻辑分配，调用TaskSchedulerImpl的resourceOffers()方法，得到了TaskDescription序列的序列Seq[Seq[TaskDescription]]，即对某个task需要在某个executor上执行的描述，仅仅是逻辑上的，还并未真正到executor上执行，本文将从源码角度解析Task是怎么被分配到executor上执行的。

2018-09-04

9240

[spark] DAGScheduler 提交stage源码解析

DAGScheduler在划分完Stage后([spark] DAGScheduler划分stage源码解析 )，将会通过submitStage(finalStage)来提交stage：

2018-09-04

6200

自动化管理工具Rundeck

Rundeck(http://rundeck.org)是开源软件，可以帮助你自动化管理日常操作程序，Rundeck提供了许多特性，将缓解耗时的繁重任务。Rundeck允许在任意数量的节点上运行，并配套有非常方便的可视化界面，Rundeck还包括其他功能，如：访问控制、工作流构建、调度、日志记录等。另外有类似作用的有cdh的oozie，但个人觉得这个用起来来还方便简洁些。

2018-09-04

2K0

[spark] RDD解析

spark 数据库

每个具体的RDD都得实现compute 方法，该方法接受的参数之一是一个Partition 对象，目的是计算该分区中的数据。我们通过map方法来看具体的实现：

2018-09-04

5630

爬虫框架Scrapy（例子）前言安装实战

最近看到一篇非常不错的关于新词发现的论文--互联网时代的社会语言学：基于SNS的文本数据挖掘，迫不及待的想小试牛刀。得先有语料啊……

2018-09-04

3970

Spark Streaming管理Kafka偏移量前言从ZK获取offset

zookeeper spark 存储 kafka

为了让Spark Streaming消费kafka的数据不丢数据，可以创建Kafka Direct DStream，由Spark Streaming自己管理offset，并不是存到zookeeper。启用Spark Streaming的 checkpoints是存储偏移量的最简单方法，因为它可以在Spark的框架内轻松获得。 checkpoints将应用程序的状态保存到HDFS，以便在故障时可以恢复。如果发生故障，Spark Streaming应用程序可以从checkpoints偏移范围读取消息。

2018-09-04

1.8K0

Elasticsearch5.6搭建及拼音中文混合搜索实现

Elasticsearch Service https github node.js 网络安全

功能分布式的搜索引擎和数据分析引擎全文检索，结构化检索，数据分析对海量数据进行近实时的处理环境搭建从官网下载压缩包 elasticsearch-5.6.1.tar.gz；解压 tar -zxvf elasticsearch-5.6.1.tar.gz $ES_HOME 因es只能由除root以外的用户启动，则给予相应的权限，如给common用户，chown -R common:root elasticsearch-5.6.1 配置，vi $ES_HOME/config/elasticsearch.

2018-09-04

2.4K0

SparkSQL常用操作

spark 大数据编程算法 jdbc

5、测试dataframe的read和save方法（注意load方法默认是加载parquet文件）

2018-09-04

4600

[spark] spark推测式执行

推测任务是指对于一个Stage里面拖后腿的Task，会在其他节点的Executor上再次启动这个task，如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果，同时会干掉其他Executor上运行的实例。spark推测式执行默认是关闭的，可通过spark.speculation属性来开启。

2018-08-29

1.2K0

[spark] 调度模式（FIFO&FAIR）

spark应用程序的调度体现在两个地方，第一个是Yarn对spark应用间的调度，第二个是spark应用内（同一个SparkContext）的多个TaskSetManager的调度，这里暂时只对应用内部调度进行分析。

2018-08-29

1.9K0

[spark] Checkpoint 源码解析

spark 云数据库 SQL Server

在spark应用程序中，常常会遇到运算量很大经过很复杂的 Transformation才能得到的RDD即Lineage链较长、宽依赖的RDD，此时我们可以考虑将这个RDD持久化。

2018-08-29

6820

[spark] Task成功执行的结果处理

在文章Task执行流程中介绍了task是怎么被分配到executor上执行的，本文讲解task成功执行时将结果返回给driver的处理流程。

2018-08-29

1.4K0

[spark streaming] DStream 和 DStreamGraph 解析

Spark Streaming 是基于Spark Core将流式计算分解成一系列的小批处理任务来执行。

2018-08-29

6850

[spark streaming] ReceiverTracker 数据产生与存储

在Spark Streaming里，总体负责任务的动态调度是JobScheduler，而JobScheduler有两个很重要的成员：JobGenerator 和 ReceiverTracker。JobGenerator 负责将每个 batch 生成具体的 RDD DAG ，而ReceiverTracker负责数据的来源。

2018-08-29

5730

[spark streaming] 动态生成 Job 并提交执行

Spark Streaming Job的生成是通过JobGenerator每隔 batchDuration 长时间动态生成的，每个batch 对应提交一个JobSet，因为针对一个batch可能有多个输出操作。

2018-08-29

1.2K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态