Spark学习之在集群上运行Spark(6)

Spark学习之在集群上运行Spark(6)

1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力。

2. Spark既能适用于专用集群,也可以适用于共享的云计算环境。

3. Spark在分布式环境中的架构:

Spark集群采用的是主/从结构,驱动器(Driver)节点和所有执行器(executor)节点一起被称为一个Spark应用(application)。

Spark自带的集群管理器被称为独立集群管理器。

4. 驱动器节点

Spark的驱动器是执行程序main()方法的进程。它执行用户编写的用来创建SparkContext、创建RDD,以及进行RDD的转化操作和行动操作的代码。

5. 执行器节点

Spark的执行器节点是一种工作进程,负责在Spark作业中运行任务,任务间相互独立。
两大作用:第一,它们负责运行组成Spark应用的任务,并将结果返回给驱动器进程;第二,它们通过自身的块管理器(Block Manager)为用户程序中要求的缓存的RDD提供内存式存储。

6. 集群管理器

Spark依赖于集群管理器来启动执行器节点,在某特殊情况下,也依赖集群管理器来启动驱动器节点。

7. 提交Python应用(spark-submit)

bin/spark-submit my_script.py

8. 打包依赖

Maven或者sbt

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python小屋

Python使用UDP协议打造在线时间服务器

代码原理:服务端监听特定的端口,如果收到客户端发来的请求就把服务器上的当前时间发给客户端,而客户端收到时间之后立刻打印输出,当然也可以改成做别的事情,例如调整客...

2735
来自专栏流柯技术学院

CentOS minimal网络设置

###NetworkManager是完全版本默认提供的网络管理工具, 因为minimal的情况下并没有安装,所以设置为no

1291
来自专栏简单聊聊Spark

Spark内核分析之Spark的HA源码分析

        Spark作业运行的集群环境有两种,分别基于standalone模式和Yarn集群模式。我们知道Yarn集群提供了HA来保证了集群的高可用,而s...

922
来自专栏繁花云

Tiny210开发板网络挂载实现

forlinx 表示将要共享的的目录(在这里我们设置的名字是6410),它可以作为网关的

530
来自专栏北京马哥教育

看了还想看—普通权限及umask

权限在操作系统是尤为重要的,无论是windows和linux中,都少不了权限这么一说,权限的大小决定了你能操作些什么,在linux中,权限对目录和文件的意义是不...

3557
来自专栏测试开发架构之路

电子邮件工作机制

相关的几个协议 -SMTP(Simple Mail Transfer Protocol) -POP(Post Office Protocol) -IMAP(在不...

2908
来自专栏云知识学习

故障:fork failed:Resource Temporarily Unavailable解决方案

AIX中用户无法执行任何命令,再ssh连报fork failed:Resource Temporarily Unavailable,是该用户的进程数超过了限制 ...

4708
来自专栏移动开发的那些事儿

DHCP租约到期自动续租问题导致TCP连接异常

以上是发起请求后有正常收到Ack的情况,但是接下来设备发起了请求并没有收到Ack,所以导致设备一直不断的去发起DHCP请求,而且此时设备并没有网络切换广播,并且...

1224
来自专栏Android点滴积累

ADB server didn't ACK

[2015-05-29 11:55:03 - adb] ADB server didn't ACK [2015-05-29 11:55:03 - adb] * ...

2076
来自专栏架构师之路

微信为啥不丢“离线消息”?

需求缘起 当发送方用户A发送消息给接收方用户B时,如果用户B在线,之前的文章《微信为啥不丢“在线消息”?》聊过,可以通过应用层的确认,发送方的超时重传,接收方...

3846

扫码关注云+社区