首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在火花放电数据中,rdd是什么意思?

在火花放电数据中,rdd是什么意思?
EN

Stack Overflow用户
提问于 2019-10-13 20:32:02
回答 1查看 127关注 0票数 0

我对火种很陌生。我想知道rdd在中意味着什么。

代码语言:javascript
运行
复制
weatherData = spark.read.csv('weather.csv', header=True, inferSchema=True)

这两行代码具有相同的输出。我想知道拥有rdd的效果

代码语言:javascript
运行
复制
weatherData.collect()
weatherData.rdd.collect()
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-10-13 21:12:58

数据帧是一种类似于二维数组的表结构,在这种结构中,每一列都包含一个变量的度量,每一行包含一种情况。

因此,DataFrame有额外的元数据,因为它的表格格式,这允许火花运行某些优化的最后确定的查询。

另一方面,RDD仅仅是一个Resilient DRDD Dataset,它更像是一个无法优化的数据黑匣子,因为可以针对它执行的操作没有那么受约束。

但是,您可以通过DataFrame方法从RDD.rdd,也可以通过.toDF()方法从RDD到DataFrame (如果RDD是表格格式的)。

通常,由于内置查询优化,建议在可能的情况下使用DataFrame。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58367567

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档