首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

PySpark安装+Jupyter Notebook配置

学校一门 需要学习Spark in Python。这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。

Prerequisite

我的系统是:Ubuntu 18.06 LTS

已经装好了python2和3(如果没有可以看看这个链接)

装好了jupyter notebook,没有的话自行google吧

装了Java 8或更高版本的Java(没有,也可以看看这个链接)

PySpark Installation Steps

1.去Spark downloads page.选择最新的Spark Release包(a prebuilt package for Hadoop), 然后直接下载。我现在的版本是Spark 2.3.1 (Jun 08 2018)。

去到下载文件夹,将文件移到home目录下并解压

3.声明一下环境变量

在文件尾部添加

重新运行一下刚刚修改的初始化文件

安装成功的话,输入

我看到StackOverflow上面说,现在也可以直接运行 来安装,但是貌似没有特别好去配置你的环境变量.我的同学是用 方法装的,现在开学第一周,也没瞧出什么区别,问了TA跟我说只要不影响你写project,什么安装方法都行。(吐槽一下:这什么鬼回答....)

PySpark in Jupyter

在Jupyter Notebook里运行PySpark有两种方法:

配置PySpark driver,当运行 命令就直接自动打开一个Jupyter Notebook

正常启动Jupyter Notebook,然后用findSpark的package(我选了这种)

方法一:配置PySpark driver

去 文件最后,添加配置PySpark driver的环境变量

同样,运行一下刚刚修改的初始化文件

最后,重启terminal

这个时候,就会自动打开Jupyter Notebook。

方法二:用findSpark包

安装findspark:

启动jupyter notebook

Jupyter Notebook运行效果

附上代码,大家运行感受一下:

Output:

实测,Python3的运行速度会比Python2的快很多,我不知道为什么我们TA跟我说用“Python 2 is better。”

常见问题(不断更新)

1.Python使用spark时出現版本不同的错误

我的电脑上的python的路径是 ,你可以运行 check一下你的Python2的安装路径

参考链接

Get Started with PySpark and Jupyter Notebook in 3 Minutes

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180905G1KBLT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券