首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Windows系统是这样配置spark环境的

由于很多人对Linux操作系统不熟悉,装虚拟机也麻烦,所以今天分享一下在Windows系统上搭建spark环境,主要分为一下5步。如果觉得不错,欢迎分享。

安装java

如果你是java1.7,或更低版本,或没有装过,那就需要升级到1.8或更高版本,可以在这里下载升级软件进行快速升级:十分简单方便。不过这个过程需要联网。https://www.java.com/zh_CN/download/win10.jsp。

查看java版本可以在cmd下输入java-version即可。

配置spark

下载spark,下载链接http://spark.apache.org/downloads.html,选择自己需要的版本。下载解压之后放在一个文件夹中,路径中最好不要有中文和空格。接下来就是配置SPARK环境变量。由于在spark_connect函数中,通过Sys.getenv()函数获取SPARK_HOME,因为默认参数是SPARK_HOME,所以在配置环境变量的时候最好变量名也用SPARK_HOME。大致操作如下图:新建环境变量SPARK_HOME,变量值为spark目录。

接下来点击Path,编辑,在弹出对话框点击新建,输入%SPARK_HOME%bin。%号是必须的。如果是win7系统,显示界面可能和下图不一样,需要用分号与其他隔开。

配置Hadoop

由于spark许多功能依赖Hadoop,所以也下载Hadoop,链接为https://archive.apache.org/dist/hadoop/common/。选择与spark匹配的版本进行下载,下载时选择hadoop-x.x.x.tar.gz进行下载,一般也是最大的那个,大约有200M左右。下载完之后解压,配置过程与spark配置过程相同。

检测环境

管理员身份打开cmd,输入spark-shell,出现如下界面也表示安装配置成功了。如果使用普通身份打开cmd,输入之后有可能出现'spark-shell' 不是内部或外部命令,也不是可运行的程序或批处理文件。

安装sparklyr

该包安装非常方便,直接install.packages("sparklyr")即可,但该包依赖的包却特别多,安装时会出现有的包安装失败的情况,那就重新装,多试几次就好了。

若没有安装sparklyr,下面是没有spark按钮的,但在安装好sparklyr之后便会出现,点击new connetion即可连接。

查看spark

连接到spark之后,在浏览器输入http://127.0.0.1:4041,便会出现如下页面:

现在就表明你的spark环境已经配置好,开启你的探索之路吧。走到时候别忘了点赞哦。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180408G1OXZW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券