首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    简单回答:SparkSQL数据抽象和SparkSQL底层执行过程

    DataFrame是什么 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。...DataFrame有如下特性: 1)分布式的数据集,并且以列的方式组合的,相当于具有schema的RDD; 2)相当于关系型数据库中的表,但是底层有优化; 3)提供了一些抽象的操作,如select、filter...与RDD相比:保存了更多的描述信息,概念上等同于关系型数据库中的二维表; 与DataFrame相比:保存了类型信息,是强类型的,提供了编译时类型检查,调用Dataset的方法先会生成逻辑计划,然后被Spark...DataFrame: 与RDD类似,DataFrame是一个分布式数据容器,不过它更像数据库中的二维表格,除了数据之外,还记录这数据的结构信息(即schema)。...也就是说, 在 SparkSQL 中, 开发者的代码即使不够优化, 也会被优化为相对较好的形式去执行。 为什么 SparkSQL 提供了这种能力?

    1.9K30

    SparkSQL 整体介绍

    SparkSql 重要概念     1. SQL:SQL语句,提供了SQL语法,可以像操作本地数据库一样对基于Spark的大数据进行数据分析     2....Schema:模式,对于存在于Hdfs的文本数据,需要定义模式,简单来说就是需要指定表头定义,包括字段名称,类型等信息,类似于数据库中的表定义,只有定义了Schema模式,才能对DataFrame数据进行...SparkSQL版本:目前SparkSQL版本有1.x 和 2.x , 2.x版本开发中对 数据操作与1.x 有差别,不过2.x 对 1.x 是兼容的。     5....执行SparkSQL语句         7....执行SparkSQL语法         7. 提交会话,查看结构 以上是对SparkSQL的一个整体介绍,后面会对SparkSQL进行详细的介绍和简单案例分析。

    15310

    SparkSql的优化器-Catalyst

    1,语法解析-Analysis SparkSql开始relation计算,既不是从一个SQL parser生成的抽象语法树,也不是从DataFrame对象。...比如,我们想为SparkSql增加一个固定精度的DECIMAL类型,我们想优化聚合规则,比如sum 和average均值。...3,物理计划-Physical Planning 在物理计划层,SparkSql会获取一个逻辑计划,用物理操作算子产生一个或者多个物理计划。然后用cost模型选择一个物理计划。...目前基于cost-based的优化仅仅用于选择join算法:对已知的很小的relations,sparksql会选择使用spark的提供的点对点的广播功能实现Broadcast join。...我们发现使用quasiquotes进行代码生成是非常简单直接的,我们观察到,即使SparkSql的新贡献者也可以快速添加新类型的表达式的规则。

    2.7K90

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭
      领券