首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    2021年大数据Spark(二十五):SparkSQLRDD、DF、DS相关操作

    SparkSession 应用入口 SparkSession:这是一个新入口,取代了原本SQLContext与HiveContext。...现在使用SparkSession,它作为单个入口可以兼容两者,注意原本SQLContext与HiveContext仍然保留,以支持向下兼容。...Spark2.0使用全新SparkSession接口替代Spark1.6中SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。...SparkSession支持从不同数据源加载数据,并把数据转换成DataFrame,并且支持把DataFrame转换成SQLContext自身中表,然后使用SQL语句来操作数据。...RDD、DataFrameDataSet之间转换如下,假设有个样例类:case class Emp(name: String),相互转换 RDD转换到DataFrame:rdd.toDF(“name

    1.3K30

    数据源Parquet之使用编程方式加载数据

    Parquet是面向分析型业务列式存储格式,由TwitterCloudera合作开发,2015年5月从Apache孵化器里毕业成为Apache顶级项目,最新版本是1.8.0。...列式存储行式存储相比有哪些优势呢? 1、可以跳过不符合条件数据,只读取需要数据,降低IO数据量。 2、压缩编码可以降低磁盘存储空间。...由于同一列数据类型是一样,可以使用更高效压缩编码(例如Run Length EncodingDelta Encoding)进一步节约存储空间。...sc = new JavaSparkContext(conf); ​​SQLContext sqlContext = new SQLContext(sc); // 读取Parquet文件中数据,创建一个...import org.apache.spark.SparkConf import org.apache.spark.SparkContext class ParquetLoadData { def

    28020
    领券