Spark学习之在集群上运行Spark(6)

Spark学习之在集群上运行Spark(6)

1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力。

2. Spark既能适用于专用集群,也可以适用于共享的云计算环境。

3. Spark在分布式环境中的架构:

Spark集群采用的是主/从结构,驱动器(Driver)节点和所有执行器(executor)节点一起被称为一个Spark应用(application)。

Spark自带的集群管理器被称为独立集群管理器。

4. 驱动器节点

Spark的驱动器是执行程序main()方法的进程。它执行用户编写的用来创建SparkContext、创建RDD,以及进行RDD的转化操作和行动操作的代码。

5. 执行器节点

Spark的执行器节点是一种工作进程,负责在Spark作业中运行任务,任务间相互独立。
两大作用:第一,它们负责运行组成Spark应用的任务,并将结果返回给驱动器进程;第二,它们通过自身的块管理器(Block Manager)为用户程序中要求的缓存的RDD提供内存式存储。

6. 集群管理器

Spark依赖于集群管理器来启动执行器节点,在某特殊情况下,也依赖集群管理器来启动驱动器节点。

7. 提交Python应用(spark-submit)

bin/spark-submit my_script.py

8. 打包依赖

Maven或者sbt

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏喵了个咪的博客空间

[喵咪大数据]Hadoop单机模式

千里之行始于足下,学习大数据我们首先就要先接触Hadoop,上节介绍到Hadoop分为Hadoop-HDFS,Hadoop-YARN,Hadoop-Mapred...

3126
来自专栏星汉技术

原 Spark的架构

3055
来自专栏cloudskyme

Hadoop使用(一)

hadoop框架 Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,J...

3084
来自专栏Hadoop实操

CDH集群跨多版本滚动升级

2272
来自专栏编程

大数据入门基础系列之浅谈Hive的用户接口

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 在前面的博文里,我已经介绍了 Hive 对外提供了三种服务模式来达到用户接口,即 : (1) H...

1829
来自专栏大数据学习笔记

Spark2.x学习笔记:4、Spark程序架构与运行模式

4、 Spark程序架构与运行模式 4.1 Spark程序最简架构 所有的Spark程序运行时,主要由两大类组件Driver和Excutor构成。 每个Spar...

2719
来自专栏张浩的专栏

Spark本地调试的使用Hive配置文件

在本地调试的时候发现把Hive的hive-site.xml放到项目的resources目录下,就可以让Spark读取hive-site.xml中的Hive的配置...

1681
来自专栏个人分享

Spark on Yarn 架构解析

我们都知道yarn重构根本的思想,是将原有的JobTracker的两个主要功能资源管理器 和 任务调度监控 分离成单独的组件。新的架构使用全局管理所有应用程序的...

1971
来自专栏Hadoop实操

0463-如何使用SQuirreL通过JDBC连接CDH的Hive(方式二)

Fayson在前面的《0459-如何使用SQuirreL通过JDBC连接CDH的Hive(方式一)》简单的介绍了SQuirreL SQL Client的安装、注...

972
来自专栏分布式系统和大数据处理

安装和配置Hadoop集群(3节点)

在 安装和配置Hadoop(单节点) 这篇文章中,已经进行了Hadoop单机伪集群模式的部署。生产环境中,Hadoop都是以集群方式进行安装和部署的,否则,就不...

1492

扫码关注云+社区