Spark SQL 的DataFrame接口支持操作多种数据源. 一个 DataFrame类型的对象可以像 RDD 那样操作(比如各种转换), 也可以用来创建临时表.
...1.2 保存到本地
默认数据源是parquet, 我们也可以通过使用:spark.sql.sources.default这个属性来设置默认的数据源.
val usersDF = spark.read.load...说明:
spark.read.load 是加载数据的通用方法.
df.write.save 是保存数据的通用方法.
1. 手动指定选项
也可以手动给数据源指定一些额外的选项....数据源应该用全名称来指定, 但是对一些内置的数据源也可以使用短名称:json, parquet, jdbc, orc, libsvm, csv, text
val peopleDF = spark.read.format...注意:
Parquet格式的文件是 Spark 默认格式的数据源.所以, 当使用通用的方式时可以直接保存和读取.而不需要使用format
spark.sql.sources.default 这个配置可以修改默认数据源