如何使用IBM Jupyter notebook中的stocator运行pyspark？

要使用IBM Jupyter Notebook中的Stocator运行PySpark，可以按照以下步骤进行操作：

首先，确保已经创建了一个IBM Cloud账号，并且已经创建了一个Apache Spark服务实例。
登录IBM Cloud控制台，进入Spark服务实例的概览页面。
在概览页面中，找到并点击"连接"按钮，然后选择"Jupyter Notebook"选项。
在Jupyter Notebook页面中，点击"创建笔记本"按钮，选择"Python 3"内核。
在笔记本中，首先需要安装stocator库，可以使用以下命令进行安装：

!pip install stocator

安装完成后，可以导入必要的库并配置Spark环境，示例如下：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder \
    .appName("PySpark with Stocator") \
    .getOrCreate()

# 配置Stocator
spark.conf.set("spark.hadoop.fs.stocator.scheme.list", "cos")
spark.conf.set("spark.hadoop.fs.cos.impl", "com.ibm.stocator.fs.ObjectStoreFileSystem")
spark.conf.set("spark.hadoop.fs.cos.service.endpoint", "<COS_ENDPOINT>")
spark.conf.set("spark.hadoop.fs.cos.service.access.key", "<COS_ACCESS_KEY>")
spark.conf.set("spark.hadoop.fs.cos.service.secret.key", "<COS_SECRET_KEY>")

其中，<COS_ENDPOINT>是COS（Cloud Object Storage）服务的访问地址，<COS_ACCESS_KEY>和<COS_SECRET_KEY>是COS服务的访问密钥。

配置完成后，就可以使用Stocator来读取和写入COS中的数据了。示例如下：

# 读取COS中的数据
df = spark.read.csv("cos://<BUCKET_NAME>.<COS_ENDPOINT>/<FILE_PATH>")

# 写入数据到COS
df.write.csv("cos://<BUCKET_NAME>.<COS_ENDPOINT>/<OUTPUT_PATH>")

其中，<BUCKET_NAME>是COS中的存储桶名称，<FILE_PATH>是要读取的文件路径，<OUTPUT_PATH>是要写入的文件路径。

以上就是使用IBM Jupyter Notebook中的Stocator运行PySpark的基本步骤。请注意，这只是一个简单示例，实际应用中可能需要根据具体情况进行配置和调整。

如何将Watson Studio python notebook与IAE Spark集成？

pyspark、ibm-cloud、watson-studio、analytics-engine

我有一个IBM Analytics Engine (IAE)实例，将其作为关联服务添加到我的Watson Studio项目中，并基于它创建了一个环境。然后，我创建了一个python笔记本，并将其环境设置为上面提到的环境。我在notebook中运行了一个简单的pyspark脚本，并注意到它使用本地实例而不是IAE。 from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() spark 输出： SparkSession - in-memory SparkContext Spark UI Ve

浏览 8提问于2020-05-06得票数 0

2回答

java.io.IOException:不适用于方案: s3

amazon-web-services、apache-spark、amazon-s3、pyspark

我正在尝试读取s3桶中的数据，并且我正在使用jupyter笔记本。我已经在我的机器上安装了Spark，并通过导入findspark在jupyter中使用它 import findspark findspark.init() from pyspark.sql import * spark = SparkSession.builder.appName("my_app").getOrCreate() 但是，当我试图从存储桶读取数据时，我得到的是错误java.io.IOException: No FileSystem for when : s3。 input_bucket = &#

浏览 0提问于2021-10-27得票数 1

1回答

基于jupyter/全火花笔记本对接机图像的笔记本，没有自定义python版本。

docker、apache-spark、hadoop、pyspark、jupyter-notebook

摘要我试图在一个全火花笔记本中执行，它应该在本地星火集群中执行，而我在中设置了这个集群。但是，我得到的错误ModuleNotFoundError: No module named 'pyspark'对我来说没有意义，因为在 (我从获取的)中，我显式地安装了pip。复制错误的步骤 # Clone the repository and checkout a specific commit kevinsuedmersen@LAPTOP-XXX:~/dev/hadoop-sandbox$ git clone https://github.com/kevinsuedmersen/ha

浏览 2提问于2021-04-18得票数 1

1回答

Dataproc:使用BigQuery读写数据时使用PySpark时的错误

python、pyspark、google-bigquery、google-cloud-dataproc

我正在尝试从用户管理的朱庇特笔记本实例中读取一些BigQuery数据(ID：my-project.mydatabase.mytable原始名称受保护)，在工作台中。我尝试的是中的灵感，更具体地说，代码是(请阅读一些关于代码本身的附加注释)： from pyspark.sql import SparkSession from pyspark.sql.functions import udf, col from pyspark.sql.types import IntegerType, ArrayType, StringType from google.cloud import bigquery

浏览 15提问于2022-08-09得票数 1

回答已采纳

1回答

火花在码头不能打开我的文件。上面说文件不存在

docker、apache-spark、pyspark、docker-compose

我构建了一个集群，使用的是对接-撰写，其中一个服务木星实验室，另一个与Apache火花。这是我的船坞。 version: '3' services: jupyter-base-notebook: image: docker.io/jupyter/pyspark-notebook ports: - 8888:8888 volumes: - ./data:/home/jovyan/work spark: image: docker.io/bitnami/spark:3 environment: -

浏览 10提问于2022-03-25得票数 0

回答已采纳

3回答

如何从jupyter笔记本访问pyspark

pyspark、jupyter-notebook

我已经在Ubuntu14.04上的ipython笔记本中成功地使用了pyspark和Python2.7，为spark创建了一个特殊的配置文件，并通过调用$ipython notebook --profile spark启动了这个笔记本。许多网站上都给出了创建spark配置文件的机制，但我使用的是中给出的机制。 $HOME/.ipython/profile_spark/startup/00-pyspark-setup.py包含以下代码 import os import sys # Configure the environment if 'SPARK_HOME' not in o

浏览 1提问于2016-06-25得票数 0

2回答

用pyspark读取csv文件时编码错误

csv、pyspark、encoding

在我上大学的课程中，我用的是电火花笔记本电脑码头形象。 docker pull jupyter/pyspark-notebook docker run -it --rm -p 8888:8888 -v /path/to/my/working/directory:/home/jovyan/work jupyter/pyspark-notebook 然后运行下一个python代码。 import pyspark from pyspark.sql import SparkSession from pyspark.sql.types import * sc = pyspark.SparkConte

浏览 5提问于2021-09-11得票数 2

回答已采纳

3回答

将木星笔记本与火花连接起来

apache-spark、pyspark、ipython-notebook、jupyter、ssh-tunnel

我有一台装有Hadoop和Spark的机器。下面是我目前的环境。 python3.6 spark1.5.2 Hadoop 2.7.1.2.3.6.0-3796 我试图连接jupyter笔记本，通过构建ipython内核来连接。编写了2个新文件。 /root/.ipython/profile_pyspark/ipython_notebook_config.py /root/.ipython/profile_pyspark/startup/00-pyspark-setup.py /root/anaconda3/share/jupyter/kernels/pyspark/kernel.

浏览 7提问于2017-04-26得票数 2

1回答

使用Jupyter Notebook为PySpark内核设置spark.app.name

pyspark、jupyter-notebook

我在一个使用YARN的Hadoop集群上使用PySpark (解释为)运行Jupyter Notebook服务器。我注意到，每个通过新笔记本启动的Spark应用程序，在Spark Web UI中都显示为一个名为"PySparkShell“的应用程序(对应于"spark.app.name”配置)。我的问题是，有时我有很多笔记本在Jupyter中运行，但它们都以相同的通用名称"PySparkShell“出现在Spark的Web中。我知道我可以将默认名称更改为其他名称，而且我还知道，一旦创建了SparkContext，我就不能更改应用程序名称。我的问题是:我可以让每个应用程

浏览 4提问于2018-05-07得票数 0

1回答

如何在docker容器中安装不同的python版本

python、docker、pyspark

我在我的机器中安装了gettyimages/spark docker映像和jupyter/pyspark-notebook。但是，由于gettyimage/spark python版本为3.5.3，而jupyter/pyspark-notebook python版本为3.7，因此出现以下错误：例外情况: worker中的Python版本与驱动程序3.7中的版本不同，PySpark无法运行不同的次要versions.Please检查环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON。因此，我尝试升级gettyimage/spark映像的python版本

浏览 1提问于2019-08-16得票数 4

回答已采纳

2回答

如何使用IBM Jupyter notebook中的stocator运行pyspark？

jupyter-notebook、ibm-cloud、ibm-watson、watson-studio、stocator

我想使用stocator从运行pyspark的Jupyter笔记本电脑(在IBM Watson Studio上)访问IBM云存储。有人能告诉我怎么做吗？我知道stocator是预装的，但您需要先在笔记本中输入凭据或设置吗(如果我要访问的COS上有特定的存储桶) 例如。我有一个存储桶名称: my-bucket 我如何访问它？我知道我可以使用ibm_boto3直接访问COS，但这是针对spark应用程序的，因此我需要能够通过stocator来实现。

浏览 29提问于2019-11-15得票数 0

4回答

env：‘jupyter’：没有这样的文件或目录

python、python-2.7、apache-spark、pyspark、jupyter-notebook

我正在尝试将这个tuto应用到我的ubuntu中，这就是我所做的： 1-安装spark 2.2....(pyspark)+ java(1.8) + anaconda (Python2.7) 2-编辑.bachrc (添加2行)： export PYSPARK_DRIVER_PYTHON=jupyter export PYSPARK_DRIVER_PYTHON_OPTS="notebook" 3-lanch Pyspark：$sudo Pyspark它工作得很好 4-lanch jupyter：$sudo jupyther notebook它工作正常当我用Jupyter no

浏览 120提问于2017-11-10得票数 3

回答已采纳

1回答

将pyspark脚本提交到远程Spark服务器？

apache-spark、pyspark、amazon-emr

这可能是一个非常愚蠢的问题，但我在谷歌上找不到答案。我已经编写了一个简单的pyspark ETL脚本，它读取CSV并将其写入Parquet，类似于： spark = SparkSession.builder.getOrCreate() sqlContext = SQLContext(spark.sparkContext) df = sqlContext.read.csv(input_filename) df.write.parquet(output_path) 为了运行它，我在Docker中启动了一个本地Spark集群： $ docker run --network=host jupyter/

浏览 0提问于2019-02-12得票数 6

2回答

从带有帐户密钥认证和ABFS驱动程序的Synapse笔记本中读取ADLS

python、azure、apache-spark、pyspark、azure-synapse

我试图在Synapse中从ADLS Gen2读取一个文件，并希望使用帐户密钥进行身份验证。中，以下内容应该有效，但在Synapse中不起作用： spark.conf.set(f"fs.azure.account.key.{adls_account_name}.dfs.core.windows.net", adls_account_key) 我想按照的建议使用ABFS驱动程序：优化驱动程序: ABFS驱动程序是专门针对大数据分析而优化的。相应的REST通过端点dfs.core.windows.net出现。不起作用的是：当我使用pyspark+ABFS并在Syn

浏览 13提问于2022-02-23得票数 0

回答已采纳

2回答

Jupyter Notebook只能在Spark上本地运行

apache-spark、jupyter

我正尝试在spark cluster (v2.0)上远程使用jupyter-notebook (v4.2.2)，但当我运行以下命令时，它不会在spark上运行，而只在本地运行： PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook --no-browser --port=7777" pyspark --master spark://**spark_master_hostname**:7077 当我单独使用相同的--master argument运行pyspark时，spark集群的进程在"R

浏览 5提问于2016-09-16得票数 8

1回答

忽略jupyter notebooks中的PYSPARK_PYTHON设置

python、pyspark、jupyter-notebook

我一直在尝试从计算机笔记本(使用jupyter lab)设置PYSPARK_PYTHON，以使用特定的conda环境，但我找不到一种方法来使其工作，我找到了一些使用以下命令的示例： import os os.environ['PYSPARK_PYTHON'] = "<the path>" 但它不起作用，所以我也试了一下： spark = pyspark.sql.SparkSession.builder \ .master("yarn-client") \ .appName(session_name) \

浏览 0提问于2021-05-15得票数 2

2回答

在创建增量表时使用Pyspark Py4JJavaError

python、apache-spark、pyspark、jupyter-notebook、delta-lake

这是在jupyter笔记本上运行的pyspark代码。 import pyspark from delta import * builder = pyspark.sql.SparkSession.builder.appName("MyApp") \ .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \ .config("spark.sql.catalog.spark_catalog",

浏览 11提问于2022-01-17得票数 3

1回答

无法读取pyspark中的csv文件

pyspark

我是pyspark的新手，我做了一些初步的教程。当我尝试使用Jupyter Notebook在我的本地主机上使用Jupyter Notebook加载Spark框架中的CSV文件时，下面提到的错误弹出。我的java版本是8.0 from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName('sql based spark data analysis') \ .config('spark.some.config.option', 'som

浏览 1提问于2018-10-25得票数 0

1回答

在虚拟机的ubuntu下使用jupyter中的pyspark时，pandas功能不起作用

apache-spark、dataframe、ubuntu、pyspark、jupyter

我正在研究火花源。所以，下面是我如何构建环境的： 1. ubuntu in virtual machine 2. downloading spark 2.4.0 3. install pyspark using pip 4. configuring environment path: export SPARK_HOME="/home/feng/Downloads/spark-2.4.0-bin-hadoop2.7/" export PATH=$SPARK_HOME/bin:$PATH export PYSPARK_DRIVER_PYTHON=jupy

浏览 23提问于2019-02-08得票数 0

回答已采纳

1回答