这是另一个论坛上其他人的问题的副本,没有人回答,所以我想我应该在这里再问一次,因为我也有同样的问题。(参见)
我已经在我的机器上正确安装了Spark,并且在使用./bin/pyspark作为我的python解释器时,能够正确地运行带有pyspark模块的python程序。
然而,当我试图运行常规的Python shell时,当我试图导入pyspark模块时,我得到了这个错误:
from pyspark import SparkContext
上面写着
"No module named pyspark".
我该如何解决这个问题呢?是否有我需要设置的环境变量来将Python指向pyspark头文件/库/等?如果我的spark安装是/spark/,我需要包含哪些pyspark路径?或者只能从pyspark解释器运行pyspark程序?
发布于 2014-05-09 22:51:24
原来pyspark bin正在加载python并自动加载正确的库路径。查看$SPARK_HOME/bin/pyspark:
# Add the PySpark classes to the Python path:
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
我将这一行添加到我的.bashrc文件中,现在可以正确找到模块了!
发布于 2015-10-22 12:33:55
不要将py文件作为:python filename.py
运行,而应使用:spark-submit filename.py
发布于 2015-11-04 12:22:35
通过导出SPARK路径和Py4j路径,它开始工作:
export SPARK_HOME=/usr/local/Cellar/apache-spark/1.5.1
export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH
PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
因此,如果您不想在每次启动Python shell时都输入这些命令,则可能需要将其添加到.bashrc
文件中
https://stackoverflow.com/questions/23256536
复制相似问题