前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >jupyter中运行pyspark

jupyter中运行pyspark

作者头像
Tim在路上
发布2020-08-04 22:03:17
发布2020-08-04 22:03:17
2.4K00
代码可运行
举报
运行总次数:0
代码可运行

Python for Spark显然比Scala慢。然而,易于学习,并且受益于我最喜爱的库。在我看来,Python是大数据/机器学习领域中原型设计的完美语言。

而jupyter可以边编程边记录,对于学生党来说是最完美的选择

怎么整合spark与jupyter?

整合spark与Jupyter

方法1. 配置PySpark驱动程序
代码语言:javascript
代码运行次数:0
运行
复制
export PYSPARK_DRIVER_PYTHON=jupyter-notebook 
export PYSPARK_DRIVER_PYTHON_OPTS=" --ip=0.0.0.0 --port=8888"

将这些行添加到您的/.bashrc(或/etc/profile)文件中。

重新启动终端并再次启动PySpark:此时将启动器jupyter

方法2. FindSpark包

使用findSpark包在代码中提供Spark Context。

findSpark包不是特定于Jupyter Notebook,你也可以在你喜欢的IDE中使用这个技巧。

代码语言:javascript
代码运行次数:0
运行
复制
import findspark
findspark.init()
import pyspark
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 100000000
def inside(p):     
  x, y = random.random(), random.random()
  return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()

不同的模式运行pyspark

spark是分为local,standalone,yarn-client,yarn-cluster等运行模式的.

  1. local模式
代码语言:javascript
代码运行次数:0
运行
复制
import findspark
findspark.init()
from pyspark import SparkContext
sc = SparkContext("local", "First App")
  1. standalone 需要传入地址和端口
代码语言:javascript
代码运行次数:0
运行
复制
import findspark
findspark.init()
from pyspark import SparkContext
sc = SparkContext("spark://192.168.5.129:7077", "First App")
  1. yarn-client
代码语言:javascript
代码运行次数:0
运行
复制
import findspark
findspark.init()
from pyspark import SparkContext
sc = SparkContext("yarn-client", "First App")
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 整合spark与Jupyter
    • 方法1. 配置PySpark驱动程序
    • 方法2. FindSpark包
  • 不同的模式运行pyspark
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档