当我运行将RDD转换为DataFrame时,我得到了一个意外的错误:
import nltk
from nltk import pos_tag
my_rdd_of_lists = df_removed.select("removed").rdd.map(lambda x: nltk.pos_tag(x))
my_df = spark.createDataFrame(my_rdd_of_lists)当我调用nltk函数od rdd时,总是出现这个错误。当我使用任何numpy方法创建这行代码时,它都没有失败。
错误码:
Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 14.0 failed 1 times, most recent failure: Lost task 0.0 in stage 14.0 (TID 323, localhost, executor driver): org.apache.spark.api.python.PythonException: Traceback (most recent call last):和
OSError: [WinError 123] Nazwa pliku, nazwa katalogu lub składnia etykiety woluminu jest niepoprawna: 'C:\\C:\\Users\\Olga\\Desktop\\Spark\\spark-2.4.5-bin-hadoop2.7\\jars\\spark-core_2.11-2.4.5.jar'所以这是我不知道如何解决的部分。我认为这是环境变量的问题,但似乎一切都好:
SPARK HOME: C:\Users\Olga\Desktop\Spark\spark-2.4.5-bin-hadoop2.7我还打印了我的sys.path:
import sys
for i in sys.path:
print(i) 并得到了:
C:\Users\Olga\Desktop\Spark\spark-2.4.5-bin-hadoop2.7\python
C:\Users\Olga\AppData\Local\Temp\spark-22c0eb38-fcc0-4f1f-b8dd-af83e15d342c\userFiles-3195dcc7-0fc6-469f-9afc-7752510f2471
C:\Users\Olga\Desktop\Spark\spark-2.4.5-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip
C:\Users\Olga
C:\Users\Olga\Anaconda3\python37.zip
C:\Users\Olga\Anaconda3\DLLs
C:\Users\Olga\Anaconda3\lib
C:\Users\Olga\Anaconda3
C:\Users\Olga\Anaconda3\lib\site-packages
C:\Users\Olga\Anaconda3\lib\site-packages\win32
C:\Users\Olga\Anaconda3\lib\site-packages\win32\lib
C:\Users\Olga\Anaconda3\lib\site-packages\Pythonwin
C:\Users\Olga\Anaconda3\lib\site-packages\IPython\extensions
C:\Users\Olga\.ipython在这里,对我来说,一切看起来都很好。请帮帮忙,我不知道该怎么办。代码的早期部分运行时没有任何错误。我是否应该以任何其他方式安装nltk以使用spark运行它?
发布于 2020-04-11 00:44:37
这似乎是一些包的问题。
我用pip卸载了nltk、pandas和numpy,然后用conda卸载了同样的东西。
在那之后,我列出了我的包,发现了一个奇怪的叫做package的包,它似乎是一个bug,叫做"-umpy“。
我甚至不能卸载它-不能用命令提示符,也不能用Anaconda navigator。所以我只是在我电脑上的文件中找到了它,并将其删除。然后我再次安装了nltk。
在那之后,它开始正常工作,错误没有出现。
https://stackoverflow.com/questions/61059445
复制相似问题