findspark.init()失败-无法正确设置SPARK_HOME环境变量_无法在本地运行python -m单元测试。SPARK_HOME变量设置不正确_当dotnet工具无法启动(初始化失败)时，我应该设置什么环境变量来获取更详细的信息？ - 腾讯云开发者社区

、、

我已经将Windows中的SPARK_ENV变量设置为以下路径:C：\Users\xxx\spark 1.6.2-bin-hadoop2.6。当我在木星中运行以下命令时： import findspark.init() 我知道这个错误： --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-3-a4bc4c9af

浏览 6提问于2016-12-19得票数 2

回答已采纳

1回答

findspark.init()列表索引超出范围错误

、、

当使用findspark.find()时，我会得到安装了spark的路径，但是当尝试findspark.init( path )时，我会使用jupyter笔记本获得超出范围的列表索引。我确保了我的SPARK_HOME和路径变量也被正确设置。下面的代码输出触发主路径 import findspark findspark.find() 用上述火花主路径的输出初始化 import findspark findspark.init(path) 抛出范围外的列表索引 133 # add pyspark to sys.path 134 spark

浏览 0提问于2019-06-18得票数 1

1回答

findspark.init()失败-无法正确设置SPARK_HOME环境变量

、、

我刚开始使用Spark，我正在尝试使用Jupyter Notebook在我的本地(windows)计算机上玩Spark 我遵循了几个关于设置环境变量的教程，以及通过Python和cmd使用多个函数来设置环境变量，但是我无法获得任何介绍性的PySpark代码。运行时(在Jupyter Notebook中，使用Python) from pyspark import SparkContext from pyspark.sql import SQLContext sc = SparkContext('lcoal', 'Spark SQL') 或者 from pys

浏览 124提问于2019-07-03得票数 2

2回答

在窗户上安装火花放电

、、

我可以在我的窗户上做一个pip install pyspark。当我试图在下面运行一个示例脚本时，它告诉我没有设置我的SPARK_HOME。我是否需要将我的SPARK_HOME设置为静止状态，以及如何进行此操作？我在网上提到的博客做了一个从火花网站的火花文件的手动提取，然后他们不得不把SPARK_HOME和PYTHONPATH。然而，我认为pip install pyspark已经消除了这一点。 import findspark findspark.init() import pyspark # only run after findspark.init() from pyspark.

浏览 0提问于2018-04-04得票数 4

8回答

设置了SPARK_HOME env变量，但朱庇特笔记本没有看到它。(窗户)

、、

我在Windows 10上，我试图在Python3.5的同时，在一个木星笔记本上启动并运行Spark。我安装了一个预构建版本的星火并设置了SPARK_HOME环境变量。我安装了findspark并运行代码： import findspark findspark.init() 我收到一个值错误： ValueError:找不到火花，确保SPARK_HOME env已经设置，或者SPARK_HOME位于预期的位置(例如，通过自制安装)。但是，设置了SPARK_HOME变量。是一个屏幕截图，它显示了我的系统中的环境变量列表。有没有人遇到过这个问题，或者知道如何解决这个问题？我只发现了一个旧

浏览 5提问于2016-07-16得票数 8

回答已采纳

4回答

findspark.init() IndexError:超出范围的列表索引

、、、

在Python3.5木星环境中运行下面的代码时，我会看到下面的错误。对是什么原因有什么想法吗？ import findspark findspark.init() 错误： IndexError Traceback (most recent call last) <ipython-input-20-2ad2c7679ebc> in <module>() 1 import findspark ----> 2 findspark.init() 3 4 import pys

浏览 7提问于2017-02-14得票数 20

回答已采纳

2回答

ModuleNotFoundError:没有名为“pyspark”的模块

、、

我最近在Linux上安装了pyspark，在导入pyspark时得到错误： ModuleNotFoundError: No module named 'pyspark' Pyspark在我的“pip列表”中我在.bashrc中添加了以下几行代码： export SPARK_HOME=~/Spark/spark-3.0.1-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/

浏览 670提问于2020-10-02得票数 2

2回答

错误:找不到py4j，您的SPARK_HOME可能无法正确配置

、、、

在木星笔记本里，我无法跑到进口以下。 findspark.init('home/ubuntu/spark-3.0.0-bin-hadoop3.2') 获取以下错误： --------------------------------------------------------------------------- ~/.local/lib/python3.6/site-packages/findspark.py in init(spark_home, python_path, edit_rc, edit_profile) 144 except Inde

浏览 7提问于2020-08-25得票数 10

1回答

如何处理findspark.init()索引错误？

、、、

这是我的代码： !apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q https://www-us.apache.org/dist/spark/spark-2.4.1/spark-2.4.1-bin-hadoop2.7.tgz !tar xf spark-2.4.1-bin-hadoop2.7.tgz !pip install -q findspark import os os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd6

浏览 0提问于2019-08-29得票数 1

3回答

如何从jupyter笔记本访问pyspark

、

我已经在Ubuntu14.04上的ipython笔记本中成功地使用了pyspark和Python2.7，为spark创建了一个特殊的配置文件，并通过调用$ipython notebook --profile spark启动了这个笔记本。许多网站上都给出了创建spark配置文件的机制，但我使用的是中给出的机制。 $HOME/.ipython/profile_spark/startup/00-pyspark-setup.py包含以下代码 import os import sys # Configure the environment if 'SPARK_HOME' not in o

浏览 1提问于2016-06-25得票数 0

1回答

无法使用findspark.init运行停靠映像

、、、

我已经创建了一个包含findspark.init()函数的程序的对接映像。该程序在本地机器上运行良好。当我尝试使用docker run -p 5000:5000 imgname:latest运行映像时，我会得到以下错误： Traceback (most recent call last): File "app.py", line 37, in <module> findspark.init() File "/usr/local/lib/python3.8/site-packages/findspark.py", line 129, i

浏览 10提问于2021-12-19得票数 1

回答已采纳

1回答

异常:无法在/content/smack-3.2.1-bin-hadoop3.2/python中找到py4j，您的SPARK_HOME可能无法正确配置

、、、

在将PySpark设置为在Google中运行时，我得到了以下错误： Exception: Unable to find py4j in /content/spark-3.2.1-bin-hadoop3.2/python, your SPARK_HOME may not be configured correctly。在我使用的代码之上： # Install java !apt-get install openjdk-8-jdk-headless -qq > /dev/null # Last version of Spar !wget -q https://www.apache.org

浏览 5提问于2022-04-07得票数 1

1回答

在jupyter notebook的python3内核上运行pyspark程序

、、、

我使用pip install pyspark安装了PySpark。我没有设置任何路径等；但是，我发现所有内容都被下载并复制到C:/Users/Admin/anaconda3/scripts中。我在Python3内核中打开jupyter notebook，并试图运行SystemML脚本，但它给了我一个错误。我意识到我也需要将winutils.exe放在C:/Users/Admin/anaconda3/scripts中，所以我这样做了，脚本按预期运行。现在，我的程序包括GridSearch，当我在我的个人笔记本电脑上运行它时，它比在云数据平台上运行它的速度要慢得多，在云数据平台上我可以用Spar

浏览 1提问于2020-09-12得票数 0

1回答

为什么PySpark找不到我的SPARK_HOME

、、

我正试图在我的机器上运行来自Archives的Jupyter笔记本电脑。当notebooks构建PySpark时，它会遇到以下异常： Exception: Unable to find py4j, your SPARK_HOME may not be configured correctly 你知道如何配置SPARK_HOME吗？我已经尝试在一个干净的conda环境中运行笔记本电脑。这是完整的笔记本，直到出现以下错误： %%capture !wget "https://github.com/archivesunleashed/aut/releases/download/aut-0

浏览 193提问于2020-12-11得票数 0

回答已采纳

1回答

使用sbt程序集填充的流作业缺乏Scala运行时方法

、、

当在SparkStreaming2.0.0作业中使用->，或者使用spark-streaming-kafka-0-8_2.11 v2.0.0并使用spark-submit提交它时，我会得到以下错误：线程"main“org.apache.spark.SparkException中的异常:由于阶段失败而中止作业:阶段72.0中的任务0失败1次，最近一次失败:阶段72.0中丢失的任务0.0 (TID 37，localhost)：java.lang.NoSuchMethodError：我向GitHub回购：简要说明了这一现象。只将提供的依赖项放置到build.sbt

浏览 2提问于2016-09-08得票数 1

回答已采纳

1回答

Python findSpark和PySpark不工作。显示IndexError:列表索引超出范围

、、、

我按照几种方法安装了findspark和PySpark。我使用的是Python 3.6，java jdk 11.0。我在.bashrc文件中添加了以下两行代码： export PATH=$PATH:/home/jbustost/.local/bin export SPARK_HOME=/home/jbustost/spark-2.4.4-bin-hadoop2.7 我已经安装了Jupyter Notebook，它运行得很好，但当我尝试使用findspark时会出现这种情况。 import findspark findspark.find() # out[2]:'/home/jbusto

浏览 0提问于2020-01-09得票数 0

2回答

findspark.init() IndexError:列表索引超出范围: Google Colab上的PySpark

、

我正在尝试在Colab上安装PySpark。 !apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q https://www-us.apache.org/dist/spark/spark-2.4.1/spark-2.4.1-bin-hadoop2.7.tgz !tar xf spark-2.4.1-bin-hadoop2.7.tgz !pip install -q findspark 安装完以上内容后，我将环境设置如下： import os os.environ["JAVA_HOME"] = &#

浏览 12提问于2019-04-18得票数 1

1回答

设置环境

我正在使用Google Colaboratory来了解Pyspark。由于某些原因，在运行设置环境时，我收到一条错误消息。从一个笔记本移到另一个笔记本时，似乎会发生这种情况。错误消息： IndexError Traceback (most recent call last) <ipython-input-1-047bb5b2397e> in <module>() 4 5 import findspark ----> 6 findspark.init() 7 from pyspark import SparkContext 8 sc = Sp

浏览 9提问于2019-02-05得票数 0

2回答

TransmogrifAI : FAILURE:生成失败，异常

、、

在遵循他们提供的说明之后，我尝试运行这个：安装Java1.8 获取Spark2.2.x:下载，解压缩，然后设置环境变量:导出SPARK_HOME= 克隆TransmogrifAI回购: git克隆构建项目: cd TransmogrifAI && /gradlew compileTestScala installDist 直到我收到这样的信息： Starting a Gradle Daemon, 1 incompatible Daemon could not be reused, use --status for details > Ta

浏览 0提问于2018-08-31得票数 1

回答已采纳

1回答

如何建立斯派克利用大熊猫的管理？

、、、

我们已经更新了火种版本，从2.2到2.3，但管理员没有更新熊猫。因此，我们的作业失败时会出现以下错误： ImportError:熊猫>= 0.19.2必须安装；但是，您的版本是0.18.1 我们的管理团队建议创建一个从anaconda下载最新版本的VM (使用命令conda create -n myenv anaconda)。我这样做了，在使用source activate myenv激活本地环境之后，当我登录到pyspark2时，我发现它正在挑选新版本的熊猫。但是当我使用spark2-submit命令提交作业时，它就不起作用了。我在spark2-submit命令中添加了下面

浏览 0提问于2018-11-14得票数 2

1回答

spark程序找不到hive-site.xml文件

、

我正在尝试使用Spark HiveContext访问hive数据。我已经写了查询“显示数据库”。但我得到的回应是默认的。似乎我的程序无法定位放置在项目的conf/文件夹中的hive-site.xml文件，因此在项目目录中创建了一个metastore_db。这是我想要做的一个示例代码： private static SparkConf sparkConf = new SparkConf().setAppName("JavaSparkSQL").setMaster("local[*]"); private static JavaSparkContext ctx

浏览 0提问于2015-09-08得票数 0

1回答

在windows 10上安装pyspark失败

、

我根据我在互联网上找到的所有可用的教程来安装spark。设置所有环境变量，但我仍然无法启动它。请参阅附件中的报告。

浏览 0提问于2020-01-06得票数 0

11回答

org.apache.spark.api.python.PythonUtils.getEncryptionEnabled : JVM中不存在org.apache.spark.api.python.PythonUtils.getEncryptionEnabled

、、

我目前正在使用JRE: 1.8.0_181，Python3.6.4，spark: 2.3.2 我试图在Python中执行以下代码： from pyspark.sql import SparkSession spark = SparkSession.builder.appName('Basics').getOrCreate() 如果出现以下错误，这将失败： spark = SparkSession.builder.appName('Basics').getOrCreate()回溯(最近一次调用)：文件""，第1行，文件"C:\Tools

浏览 0提问于2018-11-08得票数 55

2回答

第一次运行Spark，PySpark

、

我买了一本书--试着学习Spark。在下载它并遵循正确的步骤后，我在加载spark-shell和pyspark时遇到了问题。不知道有没有人能告诉我我需要做些什么才能运行spark-shell或pyspark 这就是我所做的。我创建了文件夹C:\spark，并将Spark tar中的所有文件放入该文件夹。我还创建了c：\hadoop，并将winutils.exe放入该文件夹。执行了以下操作： > set SPARK_HOME=c:\spark > set HADOOP_HOME=c:\hadoop > set PATH=%SPARK_HOME%\bin;%PATH%

浏览 2提问于2018-08-20得票数 2

1回答

python3:无法打开文件“记事本”：errno 2没有这样的文件或目录

、

我正面临着运行火花木星笔记本的问题。我在/.bashrc中设置了以下变量 export SPARK_HOME=~/Development/Spark/spark-2.4.4-bin-hadoop2.7 export PATH=$SPARK_HOME/bin:$PATH export PATH=~/anaconda3/bin:$PATH export PATH=$PATH:~/.local/bin/ export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH export PYSPARK_DRIVER_PYTON=ipython export PYSPA

浏览 0提问于2020-02-03得票数 2

1回答

如何让PySpark/spark在我的电脑上同时在python2和3上运行？

、、、、

我为python2.7准备了Spark/Pyspark。我的电脑上也有python 3.6。如何让它的spark/pyspark在python3.6上自动运行？ Spark/pyspark目前只能在我的电脑的2.7上运行

浏览 6提问于2018-02-04得票数 0

1回答

Sparklyr/Sparklyr通过纱线连接

、、、、

我是新来的火花和火花nlp。已经得到一个本地连接，没有问题，测试数据正在保存和读取等等。今天，当我加载真实的数据，即一批文本数据时，错误就开始了。从其他的讨论看来，这似乎是由于试图通过一个纱线蜂箱连接，即使我把它设置为本地。我尝试过各种信任和重置路径在我的终端，等等。现在我无法得到一个本地连接。星星之火似乎应该驻留在usr/lib/spark中。但事实并非如此。它位于用户/user_name/spark中。我已经在命令行中安装了apache，它驻留在usr/lib/但是在'apache‘下面，所以没有被引用。在R Studio中运行 Sys.getenv("SPARK_HO

浏览 8提问于2022-10-17得票数 0

1回答

在哪里修改火花-defaults.conf如果我通过pip安装pyspark

、

我通过pip install pyspark安装了pyskem3.2.0。我已经在一个名为pyspark的conda环境中安装了电火花。我找不到spark-defaults.conf。我在~/miniconda3/envs/pyspark/lib/python3.9/site-packages/pyspark中搜索它，因为这是我对SPARK_HOME应该是什么的理解。在哪里可以找到火花违约. can？我想修改它，，，我在将SPARK_HOME设置为pyspark 的安装位置时是否正确？

浏览 7提问于2021-12-07得票数 3

回答已采纳

1回答

在VS代码中调试PySpark

、、

我正在使用VS代码在PySpark中构建一个项目。我安装了PySpark，PySpark被正确导入并运行在木星笔记本上。这样做，我就跑： import findspark findspark.init() import pyspark from pyspark.context import SparkContext from pyspark.sql.session import SparkSession sc = SparkContext('local') spark = SparkSession(sc) [my code... ] 现在，如何在VS代码中调试我的PySpa

浏览 2提问于2022-07-20得票数 0

3回答

无法初始化星火上下文

、、

我试图在Python中初始化Spark上下文变量。 from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName("test").setMaster("local") sc = SparkContext(conf=conf) 但是我得到了以下错误： None.org.apache.spark.api.java.JavaSparkContext.：调用py4j.protocol.Py4JJavaError时出错：java.lang.NoClassDefFoundError:无法

浏览 0提问于2018-01-31得票数 8

1回答

从windows与linux的Spark提交

、

在过去的几天里，我在Kubernetes上体验了Spark (2.3.0)。我已经在linux和windows机器上测试了示例SparkPi，发现linux spark-submit运行正常，并且给出了正确的结果(剧透: Pi大约是3.1402157010785055) 在windows上，spark因类路径问题而失败(Could not find or load main class org.apache.spark.examples.SparkPi) 我注意到当从linux运行spark-submit时，类路径是这样的： -cp ':/opt/spark/jars/*:/var/

浏览 0提问于2018-04-09得票数 0

3回答

如何在windows 8命令提示符中运行pyspark应用程序

、、、、

我有一个用Spark上下文编写的python脚本，我想运行它。我试图将IPython与Spark集成，但我无法做到这一点。因此，我尝试将星火路径安装文件夹/箱设置为一个环境变量，并在cmd提示符中调用submit命令。我相信，这是找到火花的背景，但它产生了一个非常大的错误。有人能帮我解决这个问题吗？环境变量路径: C:/Users/Name/Spark-1.4;C:/Users/Name/Spark-1.4/bin 在此之后，在cmd提示符中:星星之火提交script.py 📷

浏览 0提问于2015-06-21得票数 9

回答已采纳

1回答

IndexError:导入findspark.init时列表索引超出范围

当我尝试导入时，我的jupyter笔记本中出现以下错误IndexError: list index out of range import findspark findspark.init() 我知道答案已经存在于这个中(所以它不是重复的)，但是，当我运行which spark-shell时，输出是：/opt/anaconda3/bin/spark-shell，它给我提供了目录，所以我运行： import findspark findspark.init('/opt/anaconda3/bin/spark-shell') 我得到了同样的错误。我怎么才能修复它？谢谢。

浏览 16提问于2020-02-12得票数 0

3回答

将木星笔记本与火花连接起来

、、、、

我有一台装有Hadoop和Spark的机器。下面是我目前的环境。 python3.6 spark1.5.2 Hadoop 2.7.1.2.3.6.0-3796 我试图连接jupyter笔记本，通过构建ipython内核来连接。编写了2个新文件。 /root/.ipython/profile_pyspark/ipython_notebook_config.py /root/.ipython/profile_pyspark/startup/00-pyspark-setup.py /root/anaconda3/share/jupyter/kernels/pyspark/kernel.

浏览 7提问于2017-04-26得票数 2

1回答

将`SPARK_HOME`设置为什么？

、、、、

安装apache-maven-3.3.3，scala 2.11.6，然后运行： $ git clone git://github.com/apache/spark.git -b branch-1.4 $ cd spark $ build/mvn -DskipTests clean package 最后： $ git clone https://github.com/apache/incubator-zeppelin $ cd incubator-zeppelin/ $ mvn install -DskipTests 然后运行服务器： $ bin/zeppelin-daemon.sh start

浏览 182提问于2015-06-14得票数 22

回答已采纳

2回答

在jupyter记事本中定义SparkContext时出错(Python3 (ipykernel))

、、、

使用anaconda`s的木星笔记本，这是我第一次使用电火花。我想要做的是定义火花环境来读取本地磁盘上的csv文件。编辑:在user2314737要求的文本而不是图像中添加文本，现在StackOverflow希望我添加更多细节，因为我的文本主体主要是代码XD，所以在这部分中我必须与大家聊天--您可以忽略这个文本体，但是我必须编写，直到我可以按下保存编辑。输入： from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName("PrdectiveModel") sc = SparkConte

浏览 19提问于2022-04-09得票数 1

16回答

在python shell中导入pyspark

、、

这是另一个论坛上其他人的问题的副本，没有人回答，所以我想我应该在这里再问一次，因为我也有同样的问题。(参见) 我已经在我的机器上正确安装了Spark，并且在使用./bin/pyspark作为我的python解释器时，能够正确地运行带有pyspark模块的python程序。然而，当我试图运行常规的Python shell时，当我试图导入pyspark模块时，我得到了这个错误： from pyspark import SparkContext 上面写着 "No module named pyspark". 我该如何解决这个问题呢？是否有我需要设置的环境变量来将Python指向py

浏览 63提问于2014-04-24得票数 125

回答已采纳

1回答

在PySpark会话中选择IPython版本

、、

我们有两个可用版本的星火(1.6和2.1)。我已经设置了环境变量(如SPARK_MAJOR_VERSION=2)，以便在直接打开火花放电或火花壳时，它使用Spark2.1。但是，当我试图在IPython会话中导入pyspark时，它使用Spark1.6。默认情况下，如何将其设置为使用2.1？

浏览 2提问于2018-06-12得票数 0

回答已采纳

3回答

星星之交错误第71行: /Library/Java/JavaVirtualMachines/jdk1.8.0_192.jdk/Contents/Home/bin/java:在Mac中没有这样的文件或目录

、、、、

我试图在独立模式下运行spark应用程序，在安装spark之后，当我尝试运行spark submit命令时，发现了上面没有找到java文件的错误。尝试了两种不同的方法。：能够通过更改环境文件来删除附加的“/”，但问题仍然是persists：使得具有java的文件保持一致，但无法找到使其一致的spark.conf文件。方法-3:尝试更改bash配置文件，但没有结果，也没有。下面是我的bash_profile export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_192.jdk/Contents/Home export SPA

浏览 7提问于2019-12-04得票数 2

2回答

在为“pyspark.worker”查找模块规范时出错(ModuleNotFoundError:没有名为“pyspark”的模块)

、、、

我正在尝试运行一个py行之有效的程序，但是我得到了一个错误： python.exe:在为“pyspark.worker”查找模块规范时出错(ModuleNotFoundError:没有名为“pyspark”的模块) SparkException: Python未能连接回。代码： from pyspark.sql import SparkSession from pyspark.sql import Row import pyspark.sql.functions as func spark = SparkSession\ .builder\ .appName("

浏览 4提问于2019-09-23得票数 0

回答已采纳

1回答

无法在ipython中正确创建火花上下文以链接到MySQL - com.mysql.jdbc.Driver。

、、、、

我正在使用Spark、PySpark、Ipython和mysql运行一个本地环境。我很怀疑能够通过spark启动一个mysql查询。主要问题是包含适当的jdbc，以便能够执行查询。以下是我到目前为止所拥有的： import pyspark conf = (pyspark.SparkConf() .setMaster('local') .setAppName('Romain_DS') .set("spark.executor.memory", "1g") .set(&

浏览 4提问于2015-11-26得票数 3

回答已采纳

1回答

gmond / ganglia的火花度量

、、

OS:百分比OS 6.4 问题:在服务器上安装了gmond、gmetad和gweb。在同一台服务器上安装了火花工作人员。在$SPARK_HOME/conf/metrics.properties中配置metrics.properties如下所示..。 CONFIGURATION (metrics.properties in spark): org.apache.spark.metrics.sink.GangliaSink host localhost port 8649 period 10 unit seconds ttl 1 mo

浏览 0提问于2014-09-09得票数 1

2回答

找不到Pyspark模块

、、、、

我正试图在Yarn中执行一个简单的Pyspark作业。代码如下： from pyspark import SparkConf, SparkContext conf = (SparkConf() .setMaster("yarn-client") .setAppName("HDFS Filter") .set("spark.executor.memory", "1g")) sc = SparkContext(conf = conf) inputFile = sc.textFi

浏览 2提问于2015-09-02得票数 5

1回答

ZendSkeleton问题

、、

我已经下载了Zend骨架的.zip，它有composer.phar和composer.json。当我在Git中从zendskeleton文件夹运行给定的命令时，它会出现一些错误。 php composer.phar self-update 错误： $ php composer.phar自更新无法下载"“文件:打开流失败:连接尝试失败，原因是连接方在一段时间后没有正确响应，或者由于连接主机未能响应而导致已建立的连接fai。自更新 php composer.phar install 错误： $ php composer.phar安装警告:这个composer的开发构建已经超过30天了。

浏览 1提问于2013-10-15得票数 1

回答已采纳

4回答

为PySpark创建IPython配置文件

、

我遵循这个链接，以便为IPython创建PySpark配置文件。 00-pyspark-setup.py # Configure the necessary Spark environment import os import sys spark_home = os.environ.get('SPARK_HOME', None) sys.path.insert(0, spark_home + "\python") # Add the py4j to the path. # You may need to change the version number t

浏览 2提问于2015-04-21得票数 7

回答已采纳

1回答

永久设置findspark.init()

、

我已经在ubuntu上安装了Apache Spark，路径为/home/mymachine/spark-2.1.0-bin-hadoop2.7，所以我必须进入python目录，位于这个目录下，才能使用spark，或者我可以在python目录之外使用它，通过一个名为findspark的库来帮助，但是似乎我必须总是像这样初始化这个库： import findspark findspark.init("/home/mymachine/spark-2.1.0-bin-hadoop2.7") 每次我想用findspark的时候，效果都不是很好。有没有永久初始化这个库的方法？在，它提到需

浏览 5提问于2017-09-23得票数 0

1回答

我如何在“木星-笔记本”的“文件->新笔记本”菜单中添加“火种”？

、、

我是星火公司的新手。我已经安装了Spark，可以成功地运行以下测试代码： import findspark findspark.init() import pyspark # only run after findspark.init() from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() df = spark.sql('''select 'spark' as hello ''') df.show() 但是我在pyspa

浏览 2提问于2022-11-20得票数 1

1回答

为什么我在使用'count‘函数时会在Pyspark中得到py4j错误？

、

我试着在pyspark中运行一个简单的代码，但是我得到了py4j错误。 from pyspark import SparkContext logFile = "file:///home/hadoop/spark-2.1.0-bin-hadoop2.7/README.md" sc = SparkContext("local", "word count") logData = sc.textFile(logFile).cache() numAs = logData.filter(lambda s: 'a' in s).count

浏览 16提问于2020-12-19得票数 0

回答已采纳

1回答

带有火花的ipython笔记本电脑在火花上下文中出错

、、、、

我正在我的MacBookOSX10.10.5 上用这个例子测试turi 当进入这一步时 # Set up the SparkContext object # this can be 'local' or 'yarn-client' in PySpark # Remember if using yarn-client then all the paths should be accessible # by all nodes in the cluster. sc = SparkContext('local') 出现以下错误 ------------

浏览 6提问于2016-07-13得票数 1

回答已采纳

3回答

Spark提交失败-/opt/cloudera/parcels/CDH/bin/spark:没有这样的文件或目录

、

我正在做的Cloudera教程和做"4。提交应用程序火花-提交“。我做错了什么让运行教程失败？我发现火花壳和火花提交，但没有从/bin文件夹中的火花泥. export SPARK_HOME="/opt/cloudera/parcels/CDH" spark-submit --master local[2] --conf "spark.dynamicAllocation.enabled=false" --jars $SPARK_HOME/lib/spark/lib/spark-examples.jar kafka_wordcount_keke.p

浏览 5提问于2017-10-16得票数 0

回答已采纳