首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

编程字典-详细的PySpark环境设置

在本章中,我们将了解PySpark的环境设置。

注 - 这是考虑到您的计算机上安装了Java和Scala。

现在让我们通过以下步骤下载并设置PySpark。

第1步 - 转到官方Apache Spark 下载页面并下载最新版本的Apache Spark。在本教程中,我们使用 spark-2.1.0-bin-hadoop2.7 。

第2步 - 现在,解压缩下载的Spark tar文件。 默认情况下,它将下载到Downloads目录中。

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

它将创建一个目录 spark-2.1.0-bin-hadoop2.7 。在启动PySpark之前,需要设置以下环境来设置Spark路径和 Py4j路径 。

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/binexport PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATHexport PATH = $SPARK_HOME/python:$PATH

或者,要全局设置上述环境,请将它们放在 .bashrc文件中 。然后运行以下命令以使环境正常工作。

# source .bashrc

现在我们已经设置了所有环境,让我们转到Spark目录并通过运行以下命令调用PySpark shell

# ./bin/pyspark

这将启动你的PySpark shell。

Python 2.7.12 (default, Nov 19 2016, 06:48:10)[GCC 5.4.0 20160609] on linux2Type "help", "copyright", "credits" or "license" for more information.Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.1.0 /_/Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)SparkSession available as 'spark'.

详细内容查看编程字典:PySpark教程

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180920A0YB9A00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券