我开始阅读书名为“火花权威指南-大数据处理变得简单”来学习火花。在我阅读的时候,我看到一句话:"A DataFrame是最常见的结构化API,它只是表示带有行和列的数据表。“我无法理解为什么RDDs和DataFrames被称为API?
发布于 2021-09-08 03:37:35
它们被称为API,因为它们本质上只是对完全相同的数据的不同接口。DataFrame可以建立在RDD的基础上,RDD可以从DataFrame中提取。它们只是在数据上定义了不同的函数集,主要的区别是语义和处理数据的方式,RDD是较低级别的API,DataFrame是较高级别的API。例如,您可以在DataFrame中使用Spark接口,它提供了所有常见的SQL函数,但是如果您决定使用RDD,则需要使用RDD转换自己编写SQL函数。
当然,它们都存在,因为它们实际上取决于您的用例。
https://stackoverflow.com/questions/69102202
复制