Ubuntu 16.04 Spark单机环境搭建

说道大数据和机器学习,就少不了Spark.本文主要介绍在Linux下搭建单机环境的Spark的步骤。

安装Java SE

1、下载JAVA SE linux版本。下载地址为: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

注意选择Linux版本,根据机器类型选择32位或者64位。

2、下载jdk-8u131-linux-x64.tar.gz后,解压到自己指定目录。

$ tar -zxvf jdk-8u131-linux-x64.tar.gz -C /usr/lib/java

3、配置JAVA环境变量。

打开.bashrc文件。

$ nano ~/.bashrc

在.bashrc文件末尾增加如下内容:

export JAVA_HOME=/usr/lib/java/jdk1.8.0_131 
export JRE_HOME=${JAVA_HOME}/jre 
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib 
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH 

保存后退出,运行如下命令,使修改环境变量即可生效:

$ source ~/.bashrc

4、检测java是否成功安装。

$ java -version
java version "1.8.0_131"

如果显示了java安装的版本,则表示已正确安装,可以进行下一步了。

安装Scala

1、下载Scala的压缩文件。下载地址为: http://www.scala-lang.org/download/

2、下载scala-2.12.2.tgz后,解压到指定的目录:

$ tar -zxvf scala-2.12.2.tgz -C /opt/scala/

3、配置scala环境变量。

打开.bashrc文件。

$ nano ~/.bashrc

在.bashrc文件末尾增加如下内容:

export SCALA_HOME=/opt/scala/scala-2.12.2 
export PATH=${SCALA_HOME}/bin:$PATH 

保存后退出,运行如下命令,使修改环境变量即可生效:

$ source ~/.bashrc

4、检测scala是否正确安装。

$ scala -version
Scala code runner version 2.12.2 -- Copyright 2002-2017, LAMP/EPFL and Lightbend, Inc

若显示如上信息,则表示scala已安装正确。

安装Spark

1、下载Spark的压缩文件。下载地址为: http://spark.apache.org/downloads.html

2、下载spark-2.1.1-bin-hadoop2.7.tgz后,解压到指定的目录:

$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/spark/

3、配置scala环境变量。

打开.bashrc文件。

$ nano ~/.bashrc

在.bashrc文件末尾增加如下内容:

export SPARK_HOME=/opt/spark/spark-2.1.1-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH 

保存后退出,运行如下命令,使修改环境变量即可生效:

$ source ~/.bashrc

4、检测spark是否正确安装。

$ spark-shell

如果出现如下界面,则表示spark已正确安装:

安装sbt

1、下载Spark的压缩文件。下载地址为: http://www.scala-sbt.org/download.html

2、下载sbt-0.13.15.tgz后,解压到指定的目录:

$ tar -zxvf sbt-0.13.15.tgz -C /opt/scala/sbt/

3、配置sbt环境变量。

打开.bashrc文件。

$ nano ~/.bashrc

在.bashrc文件末尾增加如下内容:

export SBT_HOME=/opt/scala/sbt
export PATH=${SBT_HOME}/bin:$PATH 

保存后退出,运行如下命令,使修改环境变量即可生效:

$ source ~/.bashrc

4、建立启动sbt的脚本。

$ mkdir /opt/scala/sbt/ 
$ cd /opt/scala/sbt/ 
$ touch sbt  

脚本内容如下,注意sbt-launch.jar的路径

SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M" 
java $SBT_OPTS -jar /opt/scala/sbt/bin/sbt-launch.jar "$@" 

修改sbt文件的权限

$ chmod u+x sbt 

5、检测sbt是否正确安装。

$ sbt sbt-version
[info] 0.13.15

第一次执行的时候会下载很多东西,不用管它,后来就好了。 如果出现sbt的版本信息就表示安装成功。

至此,Linux下Spark单机环境已经成功搭建完毕!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Hadoop实操

Cloudera Agent服务异常分析

在Cloudera Manager的主机列表界面查看cdh05.fayson.com节点显示异常,节点上一次检测时间超过15s

1K40
来自专栏Python爬虫与算法进阶

强大的异步爬虫 with aiohttp

看到现在网络上大多讲的都是requests、scrapy,却没有说到爬虫中的神器:aiohttp

20420
来自专栏云计算教程系列

开源资产管理系统Snipe-IT安装教程

在IT行业中,需要完整的生命周期跟踪资产的资产管理,包括采购,维护,存储和处置。Snipe-IT是专为IT资产管理而设计的免费开源应用程序,提供基于Web的界面...

1.9K40
来自专栏pythonlove

FTP使用MariaDB完成虚拟用户认证

文件传输协议(英文:File Transfer Protocol,縮寫:FTP)是用於在網絡上進行文件傳輸的一套標準協議。它属于网络传输协议的应用层。FTP是一...

11640
来自专栏牛肉圆粉不加葱

【容错篇】WAL在Spark Streaming中的应用【容错篇】WAL在Spark Streaming中的应用

WAL 即 write ahead log(预写日志),是在 1.2 版本中就添加的特性。作用就是,将数据通过日志的方式写到可靠的存储,比如 HDFS、s3,在...

15830
来自专栏我是攻城师

Hadoop+Maven项目打包异常

41370
来自专栏点滴积累

geotrellis使用(三十一)使用geotrellis直接将GeoTiff发布为TMS服务

前言 传统上我们需要先将Tiff中存储的影像等数据先切割成瓦片,而后再对外提供服务。这样的好处是服务器响应快,典型的用空间来换时间的操作。然而这样造成的问题是空...

31190
来自专栏云计算教程系列

使用Capistrano,Nginx和Puma在Ubuntu 14.04上部署Rails应用程序

Rails是一个用Ruby编写的开源Web应用程序框架。Nginx是一种高性能HTTP服务器,反向代理和负载均衡器,以其并发性,稳定性,可伸缩性和低内存消耗而著...

17840
来自专栏C/C++基础

DOS常用命令大全

2010-04-17 22:27:19|  分类: 电脑技术 |  标签:dos命令大全 |字号大中小 订阅

24810
来自专栏技术博文

H5缓存机制浅析

1 H5 缓存机制介绍 H5,即 HTML5,是新一代的 HTML 标准,加入很多新的特性。离线存储(也可称为缓存机制)是其中一个非常重要的特性。H5 引入的离...

44480

扫码关注云+社区

领取腾讯云代金券