我对火种很陌生。我想知道rdd在中意味着什么。
weatherData = spark.read.csv('weather.csv', header=True, inferSchema=True)这两行代码具有相同的输出。我想知道拥有rdd的效果
weatherData.collect()
weatherData.rdd.collect()发布于 2019-10-13 21:12:58
数据帧是一种类似于二维数组的表结构,在这种结构中,每一列都包含一个变量的度量,每一行包含一种情况。
因此,DataFrame有额外的元数据,因为它的表格格式,这允许火花运行某些优化的最后确定的查询。
另一方面,RDD仅仅是一个Resilient DRDD Dataset,它更像是一个无法优化的数据黑匣子,因为可以针对它执行的操作没有那么受约束。
但是,您可以通过DataFrame方法从RDD到.rdd,也可以通过.toDF()方法从RDD到DataFrame (如果RDD是表格格式的)。
通常,由于内置查询优化,建议在可能的情况下使用DataFrame。
https://stackoverflow.com/questions/58367567
复制相似问题