首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >ValueError: RDD为空-- Pyspark (Windows Standalone)

ValueError: RDD为空-- Pyspark (Windows Standalone)
EN

Stack Overflow用户
提问于 2016-09-02 03:43:15
回答 2查看 6.8K关注 0票数 1

我正在尝试创建一个RDD,但spark没有创建它,抛出错误,粘贴在下面;

代码语言:javascript
运行
复制
data = records.map(lambda r: LabeledPoint(extract_label(r), extract_features(r)))
first_point = data.first()

Py4JJavaError                             Traceback (most recent call last)
<ipython-input-19-d713906000f8> in <module>()
----> 1 first_point = data.first()
  2 print "Raw data: " + str(first[2:])
  3 print "Label: " + str(first_point.label)
  4 print "Linear Model feature vector:\n" + str(first_point.features)
  5 print "Linear Model feature vector length: " + str(len    (first_point.features))

C:\spark\python\pyspark\rdd.pyc in first(self)
1313         ValueError: RDD is empty
1314         """
-> 1315         rs = self.take(1)
1316         if rs:
1317             return rs[0]

C:\spark\python\pyspark\rdd.pyc in take(self, num)
 1295 
 1296             p = range(partsScanned, min(partsScanned + numPartsToTry, totalParts))
-> 1297             res = self.context.runJob(self, takeUpToNumLeft, p)..................

任何帮助都将不胜感激。

谢谢你,天真的

EN

回答 2

Stack Overflow用户

发布于 2016-09-02 20:53:11

您的records为空。您可以通过调用records.first()进行验证。

在一个空的RDD上调用first会引发错误,但不会引发collect。例如,

代码语言:javascript
运行
复制
records = sc.parallelize([])

records.map(lambda x: x).collect()

[]

代码语言:javascript
运行
复制
records.map(lambda x: x).first()

ValueError: RDD为空

票数 0
EN

Stack Overflow用户

发布于 2019-09-25 00:31:36

我也面临着这个问题,使用FIRST()操作方法,我检查并发现RDD为空,因此我得到了这个问题。确保RDD至少有一条记录要处理。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39279702

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档