Spark学习之在集群上运行Spark(6)

Spark学习之在集群上运行Spark(6)

1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力。

2. Spark既能适用于专用集群,也可以适用于共享的云计算环境。

3. Spark在分布式环境中的架构:

Spark集群采用的是主/从结构,驱动器(Driver)节点和所有执行器(executor)节点一起被称为一个Spark应用(application)。

Spark自带的集群管理器被称为独立集群管理器。

4. 驱动器节点

Spark的驱动器是执行程序main()方法的进程。它执行用户编写的用来创建SparkContext、创建RDD,以及进行RDD的转化操作和行动操作的代码。

5. 执行器节点

Spark的执行器节点是一种工作进程,负责在Spark作业中运行任务,任务间相互独立。
两大作用:第一,它们负责运行组成Spark应用的任务,并将结果返回给驱动器进程;第二,它们通过自身的块管理器(Block Manager)为用户程序中要求的缓存的RDD提供内存式存储。

6. 集群管理器

Spark依赖于集群管理器来启动执行器节点,在某特殊情况下,也依赖集群管理器来启动驱动器节点。

7. 提交Python应用(spark-submit)

bin/spark-submit my_script.py

8. 打包依赖

Maven或者sbt

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏高性能服务器开发

3 游戏后端开发需要掌握的知识

742
来自专栏互联网研发闲思录

zookeeper + LevelDB + ActiveMQ实现消息队列高可用

      通过集群实现消息队列高可用。       消息队列在项目中存储订单、邮件通知、数据分发等重要信息,故对消息队列稳定可用性有高要求。       现在...

2425
来自专栏散尽浮华

Nginx+upstream针对后端服务器容错的运维笔记

熟练掌握Nginx负载均衡的使用对运维人员来说是极其重要的!下面针对Nignx负载均衡upstream容错机制的使用做一梳理性说明: 一、nginx的upstr...

4469
来自专栏点滴积累

Ubuntu14.04双网卡主备配置

近日有个需求,交换机有两台,做了堆叠,服务器双网卡,每个分别连到一台交换机上。这样就需要将服务器的网卡做成主备模式,以增加安全性,使得当其中一个交换机不通的时候...

3046
来自专栏性能与架构

LinkedIn 即时通信系统的优化

前言 LinkedIn 的即时通信系统目前单台机器可以处理数十万的持久连接,这是不断调优的结果。 最近,他们在官网博客中发布了优化过程,介绍了即时通信系统的技术...

3018
来自专栏数据和云

挖掘Oracle日志的“大杀器”

编辑手记: LogMiner是用于Oracle日志挖掘的利器,使用该工具可以轻松获得Oracle 重做日志文件(归档日志文件)中的具体内容,LogMiner分析...

2103
来自专栏编程坑太多

跟我一起学docker(16)--单节点mesos集群

1313
来自专栏Rainbond开源「容器云平台」

Rainbond设计分享系列(1)基于Midonet的多租户网络设计

1355
来自专栏我是攻城师

Logstash与Kafka集成

3495
来自专栏微服务生态

玩转Flume+Kafka原来也就那点事儿

好久没有写分享了,继前一个系列进行了Kafka源码分享之后,接下来进行Flume源码分析系列,望大家继续关注,今天先进行开篇文章Flume+kafka的环境配置...

752

扫码关注云+社区