由于很多人对Linux操作系统不熟悉,装虚拟机也麻烦,所以今天分享一下在Windows系统上搭建spark环境,主要分为一下5步。如果觉得不错,欢迎分享。
安装java
如果你是java1.7,或更低版本,或没有装过,那就需要升级到1.8或更高版本,可以在这里下载升级软件进行快速升级:十分简单方便。不过这个过程需要联网。https://www.java.com/zh_CN/download/win10.jsp。
查看java版本可以在cmd下输入java-version即可。
配置spark
下载spark,下载链接http://spark.apache.org/downloads.html,选择自己需要的版本。下载解压之后放在一个文件夹中,路径中最好不要有中文和空格。接下来就是配置SPARK环境变量。由于在spark_connect函数中,通过Sys.getenv()函数获取SPARK_HOME,因为默认参数是SPARK_HOME,所以在配置环境变量的时候最好变量名也用SPARK_HOME。大致操作如下图:新建环境变量SPARK_HOME,变量值为spark目录。
接下来点击Path,编辑,在弹出对话框点击新建,输入%SPARK_HOME%bin。%号是必须的。如果是win7系统,显示界面可能和下图不一样,需要用分号与其他隔开。
配置Hadoop
由于spark许多功能依赖Hadoop,所以也下载Hadoop,链接为https://archive.apache.org/dist/hadoop/common/。选择与spark匹配的版本进行下载,下载时选择hadoop-x.x.x.tar.gz进行下载,一般也是最大的那个,大约有200M左右。下载完之后解压,配置过程与spark配置过程相同。
检测环境
以管理员身份打开cmd,输入spark-shell,出现如下界面也表示安装配置成功了。如果使用普通身份打开cmd,输入之后有可能出现'spark-shell' 不是内部或外部命令,也不是可运行的程序或批处理文件。
安装sparklyr
该包安装非常方便,直接install.packages("sparklyr")即可,但该包依赖的包却特别多,安装时会出现有的包安装失败的情况,那就重新装,多试几次就好了。
若没有安装sparklyr,下面是没有spark按钮的,但在安装好sparklyr之后便会出现,点击new connetion即可连接。
查看spark
连接到spark之后,在浏览器输入http://127.0.0.1:4041,便会出现如下页面:
现在就表明你的spark环境已经配置好,开启你的探索之路吧。走到时候别忘了点赞哦。
领取专属 10元无门槛券
私享最新 技术干货