前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark基础环境搭建——local本地模式

Spark基础环境搭建——local本地模式

作者头像
大数据梦想家
发布2021-01-27 10:50:13
8940
发布2021-01-27 10:50:13
举报
文章被收录于专栏:大数据成长之路

这篇博客,为大家带来的是关于Spark的环境搭建。

在这里插入图片描述
在这里插入图片描述

Spark环境搭建

提前声明: 1.我们选择目前企业中使用最多的稳定版Spark2.2.0

在这里插入图片描述
在这里插入图片描述

2.为了方便浏览和更改配置信息,我们把主机名更换为node01,node02.....

local本地模式

<1> 安装

我们需要下载Spark的安装包。

下载地址:http://spark.apache.org/downloads.html

安装完成后

在这里插入图片描述
在这里插入图片描述

上传到linux

在这里插入图片描述
在这里插入图片描述

解压并重命名

代码语言:javascript
复制
cd /export/servers
tar spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz
mv spark-2.2.0-bin-2.6.0-cdh5.14.0 spark
  • 注意:

如果有权限问题,可以修改为root,方便学习时操作,实际中使用运维分配的用户和权限即可。

代码语言:javascript
复制
chown -R root /export/servers/spark 
chgrp -R root /export/servers/spark  
  • 解压目录说明
代码语言:javascript
复制
bin        可执行脚本
conf       配置文件
data       示例程序使用数据
examples   示例程序
jars       依赖 jar 包
python     pythonAPI
R          R 语言 API
sbin       集群管理命令
yarn       整合yarn需要的文件
<2>启动spark-shell
  • 直接启动bin目录下的spark-shell: ./spark-shell
在这里插入图片描述
在这里插入图片描述
  • spark-shell说明<后续仍会提到>

<1>直接使用./spark-shell

表示使用local 模式启动,在本机启动一个SparkSubmit进程

<2>还可指定参数 --master,如:

spark-shell --master local[N] 表示在本地模拟N个线程来运行当前任务 spark-shell --master local[*] 表示使用当前机器上所有可用的资源

<3>不携带参数默认就是 spark-shell --master local[*]

<4>后续还可以使用–master指定集群地址,表示把任务提交到集群上运行,如 ./spark-shell --master spark://node01:7077,node02:7077

<5>退出spark-shell 使用 :quit

ok,说了那么多概念,接下来让我们来感受一下Spark的具体使用~

<3>初体验-读取本地文件

让我们来准备点数据 vim /root/words.txt

代码语言:javascript
复制
hello me you her 
hello you her
hello her 
hello 

spark-shell进入到命令行后程序后,输入下面的代码

代码语言:javascript
复制
val textFile = sc.textFile("file:///root/words.txt")
val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
counts.collect  //收集结果
// 预期结果: Array[(String, Int)] = Array((you,2), (hello,4), (me,1), (her,3))
<4>初体验-读取HDFS文件
  • 准备数据 上传文件到hdfs hadoop fs -put /root/words.txt /wordcount/input/words.txt

目录如果不存在可以创建 hadoop fs -mkdir -p /wordcount/input

结束后删除测试文件夹即可 hadoop fs -rm -r /wordcount

在Spark的shell窗口中输入

代码语言:javascript
复制
val textFile = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")
val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://node01:8020/wordcount/output")

待到程序执行完毕,我们进入到HDFS的UI界面进行查看

在这里插入图片描述
在这里插入图片描述

看到上述的场景,说明我们的程序以及环境搭建是没有问题的。

好了,本次的分享就到这里,喜欢的小伙伴们记得点赞加关注哟~

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/02/19 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Spark环境搭建
    • local本地模式
      • <1> 安装
      • <2>启动spark-shell
      • <3>初体验-读取本地文件
      • <4>初体验-读取HDFS文件
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档