Spark SQL 的DataFrame接口支持操作多种数据源. 一个 DataFrame类型的对象可以像 RDD 那样操作(比如各种转换), 也可以用来创建临时表.
...还有, 如果你执行的是 Overwrite 操作, 在写入新的数据之前会先删除旧的数据.
?
下列为此图实例
5. 如果已经保存过,再次保存相同的文件会出现报错【erroe(模式)】
?...数据源应该用全名称来指定, 但是对一些内置的数据源也可以使用短名称:json, parquet, jdbc, orc, libsvm, csv, text
val peopleDF = spark.read.format...2.在文件上直接运行 SQL
我们前面都是使用read API 先把文件加载到 DataFrame, 然后再查询....注意:
Parquet格式的文件是 Spark 默认格式的数据源.所以, 当使用通用的方式时可以直接保存和读取.而不需要使用format
spark.sql.sources.default 这个配置可以修改默认数据源