spark安装和提交程序测试，占用大数据最多的节点他的魔力展现在哪里？

文章来源：企鹅号 - IT航行者

作为大数据总占用的节点中最大一个部分，他可以说的上是大数据的底层，也是贯穿大数据的一个核心，在学大数据之前我们须尽可能的去了解并且记忆spark，当然作为spark来说学习起来并不特别难，也很适合一个初学者来接触。

1. 安装

1.1. 下载spark安装包

下载地址spark官网：http://spark.apache.org/downloads.html

这里我们使用 spark-1.6.2-bin-hadoop2.6版本.

1.2. 规划安装目录

/opt/bigdata

1.3. 解压安装包

tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz

1.4. 重命名目录

mv spark-1.6.2-bin-hadoop2.6 spark

1.5. 修改配置文件

配置文件目录在 /opt/bigdata/spark/conf

vi spark-env.sh 修改文件(先把spark-env.sh.template重命名为spark-env.sh)

#配置java环境变量

export JAVA_HOME=/opt/bigdata/jdk1.7.0_67

#指定spark老大Master的IP

export SPARK_MASTER_IP=node1

#指定spark老大Master的端口

export SPARK_MASTER_PORT=7077

vi slaves 修改文件(先把slaves.template重命名为slaves)

node2

node3

1.6. 拷贝配置到其他主机

通过scp 命令将spark的安装目录拷贝到其他机器上

scp -r spark-2.0.2-bin-hadoop2.7/ root@node2:$PWD --拷贝到当前目录

scp -r /opt/bigdata/spark hdp-node-02:/opt/bigdata

scp -r /opt/bigdata/spark hdp-node-03:/opt/bigdata

1.7. 配置spark环境变量

将spark添加到环境变量,添加以下内容到 /etc/profile

export SPARK_HOME=/opt/bigdata/spark

export PATH=$PATH:$SPARK_HOME/bin

注意最后 source /etc/profile 刷新配置

3.7 启动spark

#在主节点上启动spark

/opt/bigdata/spark/sbin/start-all.sh

3.8 停止spark

#在主节点上停止spark集群

/opt/bigdata/spark/sbin/stop-all.sh

3.9 spark的web界面

正常启动spark集群后，可以通过访问 http://hdp-node-01:8080,查看spark的web界面，查看相关信息。

2. Spark HA高可用部署

2.1. 高可用部署说明

Spark Standalone集群是Master-Slaves架构的集群模式，和大部分的Master-Slaves结构集群一样，存在着Master单点故障的问题。如何解决这个单点故障的问题，Spark提供了两种方案：

基于文件系统的单点恢复(Single-Node Recovery with Local File System)。

主要用于开发或测试环境。当spark提供目录保存spark Application和worker的注册信息，并将他们的恢复状态写入该目录中，这时，一旦Master发生故障，就可以通过重新启动Master进程（sbin/start-master.sh），恢复已运行的spark Application和worker的注册信息。

（2）基于zookeeper的Standby Masters(Standby Masters with ZooKeeper)。

用于生产模式。其基本原理是通过zookeeper来选举一个Master，其他的Master处于Standby状态。将Standalone集群连接到同一个ZooKeeper实例并启动多个Master，利用zookeeper提供的选举和状态保存功能，可以使一个Master被选举，而其他Master处于Standby状态。如果现任Master死去，另一个Master会通过选举产生，并恢复到旧的Master状态，然后恢复调度。整个恢复过程可能要1-2分钟。

2.2. 基于zookeeper的Spark HA高可用集群配置（机器都改成一样的）

该HA方案使用起来很简单，首先启动一个ZooKeeper集群，然后在不同节点上启动Master，注意这些节点需要具有相同的zookeeper配置。

配置：

(1)vim spark-env.sh

注释掉export SPARK_MASTER_IP=node1

(2)在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS，内容如下：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark.deploy.zookeeper.dir=/spark"

参数说明

spark.deploy.recoveryMode：恢复模式（Master重新启动的模式）

有三种：(1)ZooKeeper (2) FileSystem (3)NONE

spark.deploy.zookeeper.url：ZooKeeper的Server地址

spark.deploy.zookeeper.dir：保存集群元数据信息的文件、目录。

包括Worker，Driver和Application。

注意：

在普通模式下启动spark集群，只需要在主机上面执行start-all.sh 就可以了。

在高可用模式下启动spark集群，先需要在任意一台主节点上启动start-all.sh命令。然后在另外一台主节点上单独启动master。命令sbin/start-master.sh。

查看zk注册命令-zkCli.sh ls / --查看注册的服务

3. Spark启动方式

3.1. spark 提交任务方式

3.1.1. spark on yarn：

$ ./bin/spark-submit--class org.apache.spark.examples.SparkPi \

--master yarn-cluster \

--num-executors 3 \

--driver-memory 4g \

--executor-memory 2g \

--executor-cores 1 \

--queue thequeue \

lib/spark-examples*.jar \

2）、spark on yarn提交任务时：在yarn-cluster的集群模式，驱动程序运行在不同的机器比客户端，所以sparkcontext.addjar不会解决的是客户端的本地文件盒。在可sparkcontext.addjar客户端文件，包括他们的——jars选项在启动命令。

$ ./bin/spark-submit--class my.main.Class \

--master yarn-cluster \

--jarsmy-other-jar.jar,my-other-other-jar.jar

my-main-jar.jar

app_arg1 app_arg2

3.1.2. 测试spark自带的Pi程序，

./bin/spark-submit--class org.apache.spark.examples.SparkPi \

--master yarn-cluster\

--num-executors 1 \

--driver-memory 1g \

--executor-memory 1g \

--executor-cores 1 \

lib/spark-examples*.jar\

3.1.3. spark-submit：

spark-submit测试PI：

Spark的bin子目录中的spark-submit脚本是用于提交程序到集群中运行的工具，我们使用此工具做一个关于pi的计算。命令如下：

./bin/spark-submit --master spark://spark113:7077 \

--class org.apache.spark.examples.SparkPi \ --name Spark-Pi --executor-memory 400M \ --driver-memory 512M \

/home/hadoop/spark-1.0.0/examples/target/scala-2.10/spark-examples-1.0.0-hadoop2.0.0-cdh4.5.0.jar

spark-submit 测试：

/home/hadoop/spark/spark-1.3.0-bin-hadoop2.4/bin/spark-submit\

--classorg.apache.spark.examples.SparkPi \

--masterspark://192.168.6.71:7077 \

--executor-memory100m \

--executor-cores 1 \

1000

3.2. 以集群的模式启动spark-shell：

./spark-shell --master spark://hadoop1:7077 --executor-memory 500m

3.3. Spark 启动方式：

3.3.1. 本地模式启动

spark：./spark-shell --master local[2] 注意：可以指定多个线程

3.3.2. 集群模式启动spark：

[hadoop@hadoop1 spark-1.3.0-bin-hadoop2.4]$ ./bin/spark-shell --masterspark://hadoop1:7077 --executor-memory500m

注意：此启动方式指定了spark-shell 运行时暂用的每个机器上executor 的内存为500m

spark-shell --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark

3.3.3. 在Python解释器中启动spark：

bin/pyspark--master local[3]

3.3.4. 在R语言的解释器中启动spark：

bin/sparkR --master local[2]

3.3.5. yarn的方式启动spark：

yarn集群启动spark：$ ./bin/spark-shell --master yarn-cluster

yarn客户端启动spark：$ ./bin/spark-shell --masteryarn-client

spark-sql --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark

spark-sql --masterspark://master:7077 --driver-memory 10g --executor-memory 20g --driver-cores 3

喜欢的文章的可以关注我，老夫看你天资聪颖，骨骼惊奇是一副敲代码的好相貌，赶紧关注私聊老夫，老夫传你大数据基础入门一套，此书学会之时就是你接替老夫衣钵之日。

发表于: 2018-08-152018-08-15 16:25:59
原文链接：https://kuaibao.qq.com/s/20180815A149X000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

spark安装和提交程序测试，占用大数据最多的节点他的魔力展现在哪里？

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐