文章/答案/技术大牛

发布

社区首页 >问答首页 >如何修复OSError：[WinError 123]的pyspark NLTK错误？

问如何修复OSError：[WinError 123]的pyspark NLTK错误？
EN

Stack Overflow用户

提问于 2020-04-06 20:06:08

回答 2查看 195关注 0票数 0

当我运行将RDD转换为DataFrame时，我得到了一个意外的错误：

import nltk
from nltk import pos_tag
my_rdd_of_lists = df_removed.select("removed").rdd.map(lambda x: nltk.pos_tag(x))
my_df = spark.createDataFrame(my_rdd_of_lists)

当我调用nltk函数od rdd时，总是出现这个错误。当我使用任何numpy方法创建这行代码时，它都没有失败。

错误码：

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 14.0 failed 1 times, most recent failure: Lost task 0.0 in stage 14.0 (TID 323, localhost, executor driver): org.apache.spark.api.python.PythonException: Traceback (most recent call last):

和

OSError: [WinError 123] Nazwa pliku, nazwa katalogu lub składnia etykiety woluminu jest niepoprawna: 'C:\\C:\\Users\\Olga\\Desktop\\Spark\\spark-2.4.5-bin-hadoop2.7\\jars\\spark-core_2.11-2.4.5.jar'

所以这是我不知道如何解决的部分。我认为这是环境变量的问题，但似乎一切都好：

SPARK HOME: C:\Users\Olga\Desktop\Spark\spark-2.4.5-bin-hadoop2.7

我还打印了我的sys.path：

import sys
for i in sys.path:
    print(i)

并得到了：

C:\Users\Olga\Desktop\Spark\spark-2.4.5-bin-hadoop2.7\python
C:\Users\Olga\AppData\Local\Temp\spark-22c0eb38-fcc0-4f1f-b8dd-af83e15d342c\userFiles-3195dcc7-0fc6-469f-9afc-7752510f2471
C:\Users\Olga\Desktop\Spark\spark-2.4.5-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip
C:\Users\Olga
C:\Users\Olga\Anaconda3\python37.zip
C:\Users\Olga\Anaconda3\DLLs
C:\Users\Olga\Anaconda3\lib
C:\Users\Olga\Anaconda3

C:\Users\Olga\Anaconda3\lib\site-packages
C:\Users\Olga\Anaconda3\lib\site-packages\win32
C:\Users\Olga\Anaconda3\lib\site-packages\win32\lib
C:\Users\Olga\Anaconda3\lib\site-packages\Pythonwin
C:\Users\Olga\Anaconda3\lib\site-packages\IPython\extensions
C:\Users\Olga\.ipython

在这里，对我来说，一切看起来都很好。请帮帮忙，我不知道该怎么办。代码的早期部分运行时没有任何错误。我是否应该以任何其他方式安装nltk以使用spark运行它？

python

pyspark

conda

Stack Overflow用户

回答已采纳

发布于 2020-04-11 00:44:37

这似乎是一些包的问题。

我用pip卸载了nltk、pandas和numpy，然后用conda卸载了同样的东西。

在那之后，我列出了我的包，发现了一个奇怪的叫做package的包，它似乎是一个bug，叫做"-umpy“。

我甚至不能卸载它-不能用命令提示符，也不能用Anaconda navigator。所以我只是在我电脑上的文件中找到了它，并将其删除。然后我再次安装了nltk。

在那之后，它开始正常工作，错误没有出现。

票数 0

查看全部 2 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61059445

复制

相似问题

问如何修复OSError：[WinError 123]的pyspark NLTK错误？
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何修复OSError：[WinError 123]的pyspark NLTK错误？EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何修复OSError：[WinError 123]的pyspark NLTK错误？
EN