从Jupyter/pyspark中确定Spark UI端口_用Pyspark内核读取Jupyter notebook中的Spark Avro文件_Pyspark: Jupyter Notebook中的spark数据帧列宽配置 - 腾讯云开发者社区

、、、

我正在用一个脚本启动一个pyspark jupyter笔记本： #!/bin/bash ipaddres=... echo "Start notebook server at IP address $ipaddress" function snotebook () { #Spark path (based on your computer) SPARK_PATH=/home/.../software/spark-2.3.1-bin-hadoop2.7 export PYSPARK_DRIVER_PYTHON="jupyter" export PYSPARK_

浏览 0提问于2018-12-13得票数 0

2回答

Kafka和Pyspark集成

、、、

我对大数据很天真，我试图将kafka与spark联系起来。下面是我的生产者代码 import os import sys import pykafka def get_text(): ## This block generates my required text. text_as_bytes=text.encode(text) producer.produce(text_as_bytes) if __name__ == "__main__": client = pykafka.KafkaClient("localhost:

浏览 20提问于2018-02-21得票数 3

回答已采纳

4回答

从Jupyter/pyspark中确定Spark UI端口

、

我正在运行多个Jupyter笔记本，每个笔记本都有自己的pyspark (Spark 1.6.1)内核。如何发现哪个Spark UI实例属于哪个内核？显然，我可以循环浏览打开的页面(http://sparky:4040、http://sparky:4041等)并尝试解决它，但我希望有一种编程的方法。编辑:我没有超级用户访问服务器的权限...

浏览 54提问于2016-06-20得票数 3

回答已采纳

1回答

部署坞-组合服务时遇到问题(端口问题)

、

我想部署一个服务，这将允许我使用火花和MongoDB在木星笔记本。我使用坞-撰写来建立服务，它如下： version: "3.3" volumes: shared-workspace: networks: spark-net: driver: bridge services: spark-master: image: uqteaching/cloudcomputing:spark-master-v1 container_name: spark-master networks: -

浏览 5提问于2022-10-20得票数 0

1回答

启动jupyter-pyspark内核时生成损坏的文件

、、

我们已经在两个带有pyspark内核的linux hadoop服务器上安装和设置了jupyter笔记本。这两个服务器具有相同的kernel.jason配置，具有相同的spark和pyhton版本。在一台服务器上jupyter notebook ui --> pyspark内核工作正常，但在另一台服务器上启动pyspark内核时，有一个文件(名称为-？)是在用户主目录中生成的，能够在打开的pyspark内核会话中执行查询，但当启动新的jupyternotebook ui并在相应的pyspark内核中时，无法执行查询。我们只能在移除?后才能执行生成的文件，并再次重新加载jupyter笔记本。

浏览 33提问于2019-08-20得票数 0

1回答

在Jupyter笔记本中使用PySpark配置

、、

我目前正在尝试使用python内核和pyspark在Jupyter笔记本中配置Spark上下文，但我所做的更改都没有实现。例如，我更改了每个执行器的核心数量，并看到更改在Spark UI Environment选项卡中生效，而不是在executors选项卡中生效 (我还没有10个名气，所以我不能嵌入实际的图片) () () import findspark findspark.init() import pyspark from pyspark import SparkContext from pyspark.sql import SparkSession sc = SparkContext

浏览 15提问于2019-07-17得票数 1

1回答

py4JJavaError:调用o253.load时出错。：java.lang.ClassNotFoundException:未能找到数据源: bigquery

、、

尝试从bigquery读取数据到jupyter笔记本，并使用吡火花库。apache和java的所有文件都被下载到我的C:驱动器中。阅读和观看教程视频，但没有一个似乎是有效的。寻求指导代码： import pyspark import findspark from pyspark import SparkContext,SparkConf from pyspark.sql import SparkSession from pyspark.sql.functions import window, col, year, month, aggregate, date_add, timestam

浏览 9提问于2022-02-04得票数 -1

2回答

Hadoop火星车码头群火星之火给BlockMissingException但是文件很好

、、、、

基于，我有一个对接群设置与hadoop，火花，色调和一个jupyter笔记本设置。使用Hue，我将一个文件上传到hdfs，从hue或namenode的hdfs中下载或查看该文件没有问题。没有遗漏块，文件检查显示一切都很好。但是，当我试图使用jupyter中的pyspark访问它时，我得到了一个： BP-296583215-10.0.0.6-1542473394293:blk_1073741833_1009文件=/20170930.csv 我知道这不是因为缺了块而是更有可能是别的什么。但我不知道为什么。使用python2内核的工作簿中的python代码是： from pyspark

浏览 0提问于2018-11-18得票数 2

回答已采纳

2回答

Jupyter Notebook只能在Spark上本地运行

、

我正尝试在spark cluster (v2.0)上远程使用jupyter-notebook (v4.2.2)，但当我运行以下命令时，它不会在spark上运行，而只在本地运行： PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook --no-browser --port=7777" pyspark --master spark://**spark_master_hostname**:7077 当我单独使用相同的--master argument运行pyspark时，spark集群的进程在"R

浏览 5提问于2016-09-16得票数 8

1回答

在AWS EMR中，来自Jupyter的pyspark启用了配置单元的spark会话仅显示默认数据库，而不是所有配置单元数据库

、、

已在AWS EMR中安装了jupyter。以下代码在非AWS Env中运行良好，但在AWS EMR jupyter中仅显示配置单元中的默认数据库。在Hive shell中，显示数据库我可以看到6个数据库，但在jupyter中，它只显示默认数据库。在非AWS集群中显示6。 from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL Hive integration example") \ .enableHiveSuppor

浏览 0提问于2021-04-05得票数 0

1回答

Pyspark没有打开jupyter

、、、

我正在尝试在pyspark (在Ubuntu中)中运行graphframes，并遵循以下步骤：我编辑了mu .profile文件，如下所示： SPARK_PATH=/home/spark/spark-2.4.4-bin-hadoop2.7 # set PATH so it includes user's private bin directories PATH="$HOME/bin:$HOME/.local/bin:$PATH" $SPARK_PATH/bin/pyspark --master local[2] export PYSPARK_DRIVER_PYTHO

浏览 28提问于2019-10-04得票数 0

1回答

jupyter notebook干扰spark提交

、、

我在我的OS上预先安装了Spark和Hadoop，并将PySpark与Jupyter Notebook集成在一起。基本上我在Jupyter Notebook弹出的终端中输入"pyspark“。一切都很好。但是当我用下面的命令使用spark-sumit时： spark-submit --master local[*] --total-executor-cores 1 --driver-memory 2g server.py 我得到一个错误： jupyter: '/Users/XXX/some_path/server.py' is not a Jupyter comman

浏览 13提问于2017-02-16得票数 0

回答已采纳

4回答

env：‘jupyter’：没有这样的文件或目录

、、、、

我正在尝试将这个tuto应用到我的ubuntu中，这就是我所做的： 1-安装spark 2.2....(pyspark)+ java(1.8) + anaconda (Python2.7) 2-编辑.bachrc (添加2行)： export PYSPARK_DRIVER_PYTHON=jupyter export PYSPARK_DRIVER_PYTHON_OPTS="notebook" 3-lanch Pyspark：$sudo Pyspark它工作得很好 4-lanch jupyter：$sudo jupyther notebook它工作正常当我用Jupyter no

浏览 120提问于2017-11-10得票数 3

回答已采纳

1回答

如何查找在计算机不同内核中创建的Spark RDD

、、

我只是想更多地了解Spark。所以我想问这个问题。我目前在本地机器上安装了Spark。这是一台16 Its的Mach。我连接了一个运行Pyspark的Jupyter笔记本。所以，现在当我在笔记本中进行任何编码时，比如读取数据并将数据转换为Spark DataFrame，我想检查一下： 1)。其中所有数据集都分布在本地机器上。例如，它是否使用不同的CPU核心来分发数据集等？有没有办法找出答案呢？ 2)。使用没有spark的Jupyter notebook运行代码和计算与使用Pyspark运行Jupyter notebook是不同的？像第一个一样，只使用机器的一个核心，使用一个线程运行，而使

浏览 0提问于2016-08-13得票数 0

1回答

设置PYSPARK_SUBMIT_ARGS="--name“"PySparkShell”"pyspark-shell“& jupyter notebook

我希望在我的Windows10机器上安装PySpark，但一直无法正确指定PYSPARK_SUBMIT_ARGS参数。这是我从gitbash运行"pyspark“命令时看到的错误： $ pyspark set PYSPARK_SUBMIT_ARGS="--name" "PySparkShell" "pyspark-shell" && jupyter notebook 我已经卸载了除版本8以外的所有版本的Java。在我的.bashrc文件中，我的路径当前指定为： export JAVA_HOME="C:\PROG

浏览 63提问于2020-09-28得票数 1

回答已采纳

1回答

如何将Pyspark连接到运行在docker上的datastax Cassandra？

、、、、

我在Docker上运行Datastax Cassandra，我在Datastax Cassandra上创建了我的表，但是我想用docker-compose.yml安装Pyspark容器，但是我不知道如何设置docker-compose.yml文件的网络来连接Datastax Cassandra和Pyspark容器。这是docker-compose.yml，用于运行pyspark： spark: image: jupyter/pyspark-notebook container_name: pyspark ports: - "8888:8888&

浏览 3提问于2020-10-20得票数 2

1回答

如何从命令行访问Apache PySpark？

、、

我正在参加一个使用Jupyter笔记本的Apache PySpark在线课程。为了轻松打开Jupyter笔记本，他们让我在我的bash配置文件中输入以下代码行(我使用的是MAC OS)： export SPARK_HOME="(INSERTED MY SPARK DIRECTORY)" export PATH=$SPARK_HOME/bin:$PATH export PYSPARK_DRIVER_PYTHON=jupyter export PYSPARK_DRIVER_PYTHON_OPTS='notebook' 我对Linux不是很熟悉，课程也没有解释这些代

浏览 9提问于2019-10-04得票数 0

1回答

将pyspark脚本提交到远程Spark服务器？

、、

这可能是一个非常愚蠢的问题，但我在谷歌上找不到答案。我已经编写了一个简单的pyspark ETL脚本，它读取CSV并将其写入Parquet，类似于： spark = SparkSession.builder.getOrCreate() sqlContext = SQLContext(spark.sparkContext) df = sqlContext.read.csv(input_filename) df.write.parquet(output_path) 为了运行它，我在Docker中启动了一个本地Spark集群： $ docker run --network=host jupyter/

浏览 0提问于2019-02-12得票数 6

1回答

使用Jupyter Notebook为PySpark内核设置spark.app.name

、

我在一个使用YARN的Hadoop集群上使用PySpark (解释为)运行Jupyter Notebook服务器。我注意到，每个通过新笔记本启动的Spark应用程序，在Spark Web UI中都显示为一个名为"PySparkShell“的应用程序(对应于"spark.app.name”配置)。我的问题是，有时我有很多笔记本在Jupyter中运行，但它们都以相同的通用名称"PySparkShell“出现在Spark的Web中。我知道我可以将默认名称更改为其他名称，而且我还知道，一旦创建了SparkContext，我就不能更改应用程序名称。我的问题是:我可以让每个应用程

浏览 4提问于2018-05-07得票数 0

2回答

使用Apache Spark Submit提交Python应用程序

、、

我正在尝试遵循Apache Spark文档站点上的示例：我启动了一个Spark独立集群，并希望运行示例Python应用程序。我在我的spark-2.0.0-bin-hadoop2.7目录中，运行以下命令 ./bin/spark-submit \ --master spark://207.184.161.138:7077 \ examples/src/main/python/pi.py \ 1000 但是，我得到了这个错误 jupyter: '/Users/MyName/spark-2.0.0-bin- \ hadoop2.7/examples/src/main/python/pi.p

浏览 1提问于2016-09-03得票数 0

1回答

具有jupyter的pyspark内核-找不到内核

、、

我正试图在jupyter中使用火花放电内核。我对这两方面都很陌生，并且在jupyter中尝试着让pyflem2.1.0在jupyter工作。我已经在64位Ubuntu16.04LTS上安装了pyscem2.1.0和anaconda3。我已经在.bashrc中设置了以下导出： export SPARK_HOME=/usr/lib/spark export PYSPARK_SUBMIT_ARGS="--master local[2] pyspark-shell" export SBT_HOME=/usr/share/sbt-launcher-packaging/bin/sbt-l

浏览 0提问于2017-02-05得票数 2

回答已采纳

1回答

尝试使用Jupyter notebook运行pyspark时出现问题

、、、、

我需要在Jupyter notebook上运行pyspark。(我使用Windows 10) 我在Anaconda Prompt中尝试了一下： pip install spark pip install pyspark SET PYSPARK_DRIVER_PYTHON=jupyter SET PYSPARK_DRIVER_OPTS='notebook' pyspark 并返回此错误： Traceback (most recent call last): File "C:\Users\User\Anaconda3\Scripts\jupyter-script.py

浏览 36提问于2020-09-05得票数 0

回答已采纳

1回答

ImportError:无法从“”graphframes.lib“”导入名称“”Pregel“”

、、、、

我使用的是jupyter的pyspark和graphframes。我能够成功地导入pyspark和graphframes，但当我尝试时： from graphframes.lib import Pregel 我得到以下错误： ImportError: cannot import name 'Pregel' from 'graphframes.lib' 这篇文章是我如何在没有graphframes.lib的情况下让graphframes工作的： https://github.com/graphframes/graphframes/issues/104 wget

浏览 30提问于2019-05-30得票数 1

回答已采纳

1回答

Jupyter中缺少监视器小部件

、、、

要将显示器小部件恢复到EMR Jupyter Notebook，需要执行哪些代码或配置或步骤？发现了这个： (日期是2019年8月15日) sc Starting Spark application ID YARN Application ID Kind State Spark UI Driver log Current session? 36 application_blahblahblahsomenumber pyspark idle Link Link ✔ SparkSession available as 'spark'. B

浏览 0提问于2019-08-31得票数 0

3回答

ipython未被识别为内部或外部命令(pyspark)

、、、

我已经安装了spark发行版：spark-2.2.0-bin-hadoop2.7。我使用的是Windows 10 OS 我的java版1.8.0_144 我设置了我的环境变量： SPARK_HOME D:\spark-2.2.0-bin-hadoop2.7 HADOOP_HOME D:\Hadoop ( where I put bin\winutils.exe ) PYSPARK_DRIVER_PYTHON ipython PYSPARK_DRIVER_PYTHON_OPTS notebook 路径为D:\spark-2.2.0-bin-hadoop2.7\bin 当我从命令行启动py

浏览 1提问于2017-11-18得票数 3

1回答

如何访问安装在hdfs头节点群集中的pyspark

、、、、

我有一个由hadoop集群组成的头节点，我看到pyspark安装在hdfs集群中，即我可以在hdfs user.But内使用pyspark shell，用户头节点没有安装pyspark。因此，我无法访问hdfs中的文件并将其带到jupyter笔记本中我是否可以使用jupyter笔记本中hdfs中的pyspark。我在用户头节点中安装了pyspark，但我无法访问hdfs文件。我假设jupyter不能使用安装在hdfs.How中的spark来启用它，以便我可以访问jupyter中的hdfs文件。现在，当我访问jupyter内部的hdfs文件时， It says 'Spark is n

浏览 45提问于2019-01-22得票数 0

1回答

Jupyter notebook、pyspark、hadoop-aws问题

、、、、

我正在尝试同时使用Jupyter、PySpark和S3文件(通过s3a协议)。我需要org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider，因为我们需要使用s3会话令牌。这是添加到hadoop-aws 2.8.3+中的。我正在尝试以下代码： import os from pyspark.sql import SparkSession os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.hadoop:hadoop-aws:3.0.0 pyspark

浏览 1提问于2018-11-16得票数 2

3回答

将木星笔记本与火花连接起来

、、、、

我有一台装有Hadoop和Spark的机器。下面是我目前的环境。 python3.6 spark1.5.2 Hadoop 2.7.1.2.3.6.0-3796 我试图连接jupyter笔记本，通过构建ipython内核来连接。编写了2个新文件。 /root/.ipython/profile_pyspark/ipython_notebook_config.py /root/.ipython/profile_pyspark/startup/00-pyspark-setup.py /root/anaconda3/share/jupyter/kernels/pyspark/kernel.

浏览 7提问于2017-04-26得票数 2

1回答

如何定义Spark和驱动程序日志URL，使它们直接命中我的代理而不是火花主程序

、、、

环境： 2.4.0JupyterHubNGINX AWS EMR 5.20.0反向代理问题：用户登录到我们的代理并被定向到AWS集群上的JupyterHub实例。他们创建了一个带有pyspark3内核的木星笔记本，并启动了一个Spark实例。例如： help(spark) 结果： Starting Spark application ID YARN Application ID Kind State Spark UI Driver log Current session? 55 application_0056 pyspark3 idle

浏览 1提问于2020-09-10得票数 1

1回答

线程"main“中出现异常:java.lang.IllegalArgumentException不支持任何应用程序选项

在pyspark中配置jupyter notebook时，它有一些错误:在.bashrc文件中： export PATH="/root/anaconda3/bin:$PATH" export PYSPARK_DRIVER_PYTHON=jupyter export PYSPARK_DRIVER_PYTHON_OPTS="notebook --ip=my ip" 当我输入pyspark时，它显示[C 13:51:52.029 NotebookApp] Running as root is not recommended. Use --allow-root to b

浏览 2提问于2017-06-25得票数 0

2回答

电火花外壳中的外部包(jars) --如何

、

将外部包(jars)包含在火花放电外壳中的正确方法是什么？我用的是jupyter笔记本上的电火花。我想通过spark-sql-kafka库从卡夫卡中通过火花阅读，如下所述：。我试图通过环境变量PYSPARK_SUBMIT_ARGS中设置的PYSPARK_SUBMIT_ARGS选项导入库。但我不确定要使用的软件包的确切版本和名称，我不知道我是否也需要包括火花流，是否需要用--repositories指定某个存储库，我不知道下载jar并指定本地路径是否更好(它们必须在jupyter运行的机器上，还是在纱线运行的机器上？)我正在使用--master yarn和--deplo

浏览 0提问于2019-12-11得票数 0

1回答

如何在docker容器中安装不同的python版本

、、

我在我的机器中安装了gettyimages/spark docker映像和jupyter/pyspark-notebook。但是，由于gettyimage/spark python版本为3.5.3，而jupyter/pyspark-notebook python版本为3.7，因此出现以下错误：例外情况: worker中的Python版本与驱动程序3.7中的版本不同，PySpark无法运行不同的次要versions.Please检查环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON。因此，我尝试升级gettyimage/spark映像的python版本

浏览 1提问于2019-08-16得票数 4

回答已采纳

1回答

如何使用pyspark读取avro文件

、、

我正试图在jupyter笔记本中阅读avro文件，但面临着这个问题。 Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.avro.AvroFileFormat.DefaultSource 我似乎不知道该从哪里得到这种依赖。 import findspark findspark.init() import pyspark from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession.builde

浏览 2提问于2020-04-23得票数 1

回答已采纳

1回答

如何从命令行为Jupyter spark/pyspark笔记本指定内存和cpu？

、、

这样做的目的是为了实现以下目标 jupyter-notebook --kernel-options="--mem 1024m --cpus 4" 其中kernel-options将被转发到pyspark或spark内核。我们需要它来运行不同的jupyter服务器--一个用于pyspark内核，另一个用于同一台机器上的spark (in scala)内核。这是一个要求，因为单个jupyter服务器不支持同时运行的pyspark和(scala) spark内核。

浏览 26提问于2017-01-17得票数 2

回答已采纳

4回答

Dataproc:木星电火花笔记本无法导入图形框架包

、、、

在Dataproc星火集群中，星火外壳中有图形框架包，而jupyter pyspark笔记本中却没有。 Pyspark内核配置： PACKAGES_ARG='--packages graphframes:graphframes:0.2.0-spark2.0-s_2.11' 下面是初始化群集的cmd： gcloud dataproc clusters create my-dataproc-cluster --properties spark.jars.packages=com.databricks:graphframes:graphframes:0.2.0-spark2.0-s_

浏览 10提问于2016-11-30得票数 3

回答已采纳

1回答

worker中的Python有不同的版本:环境变量被正确设置。

、、、

我正在Linux上的木星笔记本上运行Python脚本。代码并不重要，但在这里(它是图形框架的教程)： import pandas import pyspark from functools import reduce from graphframes import * from IPython.display import display, HTML from pyspark.context import SparkContext from pyspark.sql import SQLContext from pyspark.sql.functions import col, lit, w

浏览 1提问于2019-10-25得票数 1

回答已采纳

3回答

运行火花时出错

、

我试着通过终端机运行火星雨。从我的终端，我运行snotebook，它将自动加载木星。在此之后，当我选择python3时，错误就来自终端。处理PYTHONSTARTUP文件/Users/simon/spark-1.6.0-bin-hadoop2.6/python/pyspark/shell.py中的IPKernelApp警告这是我的.bash_profile设置： export PATH="/Users/simon/anaconda/bin:$PATH" export SPARK_HOME=~/spark-1.6.0-bin-hadoop2.6 export PA

浏览 10提问于2017-10-04得票数 2

1回答

用Pyspark内核读取Jupyter notebook中的Spark Avro文件

、、

我想在Jupyter笔记本上读一个Spark Avro文件。我已经把spark -avro建好了。当我转到我的目录并执行以下操作时 pyspark --packages org.apache.avro:avro-mapred:1.7.7,com.databricks:spark-avro_2.10:2.0.1 它能够在浏览器中打开jupyter笔记本，然后我可以运行以下命令，它可以正确读取。 sdf_entities = sqlContext.read.format("com.databricks.spark.avro").load("learning_entity

浏览 10提问于2017-02-07得票数 1

回答已采纳

1回答

木星上的火花核会产生“火花未被发现”的错误。

、、

我有一些pyspark内核jupyter笔记本已经工作了几个月，但最近不再工作了。pyspark内核本身正在工作:它给出了蓝色消息： Kernel Loaded 。。我们可以看到内核是可用的但是我在jupyter日志中注意到了这一点： IPKernelApp警告:在处理PYTHONSTARTUP文件/shared/spark/python/pyspark/shell.py. in时出现未知错误：当尝试在spark中做一些工作时，我们得到： ---> 18 df = spark.read.parquet(path) 19 if cou

浏览 0提问于2018-11-17得票数 0

回答已采纳

3回答

我是否可以在集群部署模式下运行笔记本？

、、

上下文：集群配置如下：所有东西都在用码头文件运行。 node1:火花母版 node2: jupyter集线器(我也在这里运行笔记本) 节点3-7:火花工作节点我可以将工作节点的telnet和ping发送到node2，反之亦然。问题：--我正试图在吡火花jupyter笔记本中创建一个火花会话，它以集群部署模式运行。我试图让驱动程序在一个不是运行jupyter笔记本的节点上运行。现在，我可以在集群上运行作业，但只能在node2上运行驱动程序。经过深入研究，我发现了这个，它声称，如果您运行一个带有火花的交互式shell，您只能在本地部署模式下这样做(在该模式下，驱

浏览 10提问于2017-09-01得票数 8

回答已采纳

1回答

在启动jupyter笔记本时使用“`ipython`”指定的结果调用pyspark

、

我更喜欢使用ipython增强型REPL而不是python，因此我在pyspark命令行中这样指定：结果：jupyter notebook推出(令人惊讶)： PYSPARK_DRIVER_PYTHON=ipython MASTER="local[*]" $SPARK_HOME/bin/pyspark 这种方法已经成功了好几年，但目前它正在导致jupyter notebook的推出。如果还存在显式命令notebook，则该结果将是有意义的：结果：jupyter notebook启动(预期)： PYSPARK_DRIVER_PYTHON=ipython notebook

浏览 0提问于2018-07-21得票数 1

回答已采纳

1回答

在设置了环境变量之后，我的pyspark在ubuntu中失败了。

、、

我安装了anaconda的火花放电 $ conda install pyspark 之后，在我的jupyter笔记本中，它工作得很好，但是在教程中提到了https://mortada.net/3-easy-steps-to-set-up-pyspark.html，您必须设置环境变量，如 $ export SPARK_HOME=~/spark-2.2.0-bin-hadoop2.7 $ export PYSPARK_PYTHON=~/anaconda/bin/python 当我试图在我的jupyter笔记本中重新运行pyspark时，会出现下一个错误。 '/home/joga

浏览 0提问于2021-05-09得票数 0

2回答

在从任何目录启动的Jupyter Notebook中导入pyspark

、、

我的操作系统是Ubuntu16，我的目标是在Jupyter Notebook中运行import pyspark，而不必从我安装Spark的目录中启动Jupyter Notebook (通过控制台)。我用findspark试过了，就像这样 import findspark findspark.init("directory_where_I_installed_spark_to") import pyspark 这只适用于一个会话，但当我关闭会话并再次打开笔记本时，import pyspark会显示ImportError: No module 'pyspark'。我

浏览 11提问于2017-08-14得票数 0

回答已采纳

6回答

朱庇特电火花:无模块名为火星雨

、、、、

谷歌确实有很多解决这个问题的方法，但不幸的是，即使在尝试了所有的可能性之后，我也无法让它发挥作用，所以请耐心等待，看看是否有什么东西能打动你。操作系统: MAC 火花: 1.6.3 (2.10) 木星笔记本: 4.4.0 Python : 2.7 Scala : 2.12.1 我成功地安装并运行了木星笔记本。接下来，我尝试将其配置为与Spark一起工作，为此，我使用Apache安装了spark解释器。现在，当我尝试在笔记本中运行任何RDD操作时，会引发以下错误 Error from python worker: /usr/bin/python: No module named pyspa

浏览 3提问于2017-02-03得票数 9

回答已采纳

1回答

我的Macbook Pro上可以同时运行两个工作的pyspark版本(1.6.1和2.0)吗？

、

我目前正在使用Spark 1.6.1，并在Jupyter Ipython笔记本和Java 8中使用它。对于Java，我只需修改我的maven pom以导入Spark 2.0，但我不确定如何在ipython中做同样的事情。我认为我需要安装2.0，但这是可行的，因为我已经安装了Spark 1.6.1？我可以在我的macbook上同时使用两个版本，并从pyspark中选择使用哪个版本吗？多么? 更新:这是我在终端% IPYTHON_OPTS="notebook" pyspark上启动我的Jupyter pyspark笔记本=>的方式。我如何告诉它使用Spark 2.0启动？

浏览 2提问于2016-09-22得票数 0

2回答

无法在iPython中实例化火花上下文

、、、、

我试图在mac上本地设置一个独立的spark实例，并使用Python3API。为此，我完成了以下操作: 1.下载并安装了Scala和Spark。2.我设置了以下环境变量， #Scala export SCALA_HOME=$HOME/scala/scala-2.12.4 export PATH=$PATH:$SCALA_HOME/bin #Spark export SPARK_HOME=$HOME/spark/spark-2.2.1-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin #Jupyter Python export PYSPARK_

浏览 1提问于2018-02-07得票数 0

回答已采纳

2回答

无法启动吡火花OSX的木星笔记本: IPYTHON和IPYTHON_OPTS在火花2.0+中被删除

、、

我下载了:spark 2.2.0-bin-hadoop2.7 在我的~/.bash_profile中，我有以下内容： export PATH="/Users/spandan.chakraborty/anaconda/bin:$PATH" export SPARK_PATH=~/spark-2.2.0-bin-hadoop2.7 export PYSPARK_DRIVER_PYTHON='jupyter' export PYSPARK_DRIVER_PYTHON_OPTS='notebook' alias snote='$SPARK

浏览 2提问于2017-10-16得票数 0

5回答

PySpark无法启动-‘python’：没有这样的文件或目录

、、

我正在尝试在我的桌面上设置pyspark，并通过终端与其交互。我跟着这本指南走， http://jmedium.com/pyspark-in-python/ 当我在终端中运行'pyspark‘时， /home/jacob/spark-2.1.0-bin-hadoop2.7/bin/pyspark: line 45: python: command not found env: ‘python’: No such file or directory 我遵循了几个指南，它们都导致了这个相同的问题(有些指南在设置.profile时有不同的细节。到目前为止，没有一个是正确工作的)。我安装了j

浏览 397提问于2018-09-06得票数 7

回答已采纳

3回答

无法在jupyter笔记本中导入sparkdl

、、、

我正在尝试使用jupyter notebook中的spark deep learning library()。当我尝试在jupyter notebook中“导入sparkdl”时，我得到了错误“找不到模块”。当我在cli中运行以下命令时 pyspark --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11 我可以在spark shell中导入sparkdl并使其正常工作。如何在jupyter notebook中使用这个库？

浏览 0提问于2019-03-27得票数 2

3回答

无法识别Pyspark命令

、、

我安装了anaconda，还下载了Spark 1.6.2。我正在使用这个答案中的以下说明来为Jupyter 配置spark 我已经将spark目录下载并解压缩为 ~/spark 现在，当我cd进入这个目录和bin时，我看到了以下内容 SFOM00618927A:spark $ cd bin SFOM00618927A:bin $ ls beeline pyspark run-example.cmd spark-class2.cmd spark-sql sparkR beeline.cmd pyspark.cmd run-

浏览 4提问于2016-08-06得票数 6