教程：Apache Spark SQL入门及实践指南！

文章来源：企鹅号 - IT168企业级

更多精彩第一时间直达

Apache SparkSQL是一个重要的Spark模块，我们可以使用Python、Java和Scala中的DataFrame和DataSet简化结构化数据处理流程，该过程从企业收集数据并形成分布式数据集合。

使用Spark SQL，我们可以从Spark程序内部通过标准数据库连接器（JDBC/ODBC）连接到Spark SQL外部工具查询数据。

本教程介绍了Spark SQL体系结构组件，比如DataSets和DataFrames；在Apache Spark中使用Spark SQL以及其优劣等内容。

Apache Spark SQL教程

Spark SQL简介

Apache SparkSQL是Spark中结构化数据处理模块。使用Spark SQL提供的接口，我们可以获得有关数据结构和执行计算等信息。有了这些信息，我们就可以在Apache Spark中实现优化，通过DataFrame和Dataset API等方式与Spark SQL交互。无论使用哪种API或语言表达计算，在计算结果时都使用相同的执行引擎。因此，用户可以容易地在不同API间切换。

在Apache Spark SQL中，我们可以通过四种方式使用结构化和半结构化数据：

为了简化结构化数据使用，它提供了Python，Java和Scala中的DataFrame抽象，提供了很好的优化技术。

可读取和写入多种格式数据，比如JSON、Hive Tables和Parquet。

使用SQL，我们可以从Spark程序内外部工具中查询数据，外部工具通过标准数据库连接器（JDBC/ODBC）连接到Spark SQL。

使用Spark SQL的最佳方法是在Spark应用程序中，这使我们能够加载数据并使用SQL进行查询。同时，我们还可以将它与Python、Java或Scala中的“常规”程序代码结合使用。

SQL从其他编程语言运行的结果将是数据集或数据框架，与SQL接口的交互使用命令行或JDBC/ODBC进行。

Spark SQL DataFrames

RDD存在一些局限性，使用结构化数据没有内置的优化引擎，开发人员必须优化每个RDD。此外，没有规定处理结构化数据。Spark SQL中的DataFrame克服了RDD限制。Spark DataFrame是Spark 1.3版本，它是按命名列排序的分布式数据集。从概念来看，它等同于关系数据库中的表或R/Python中的数据框架，我们可以使用以下方法创建DataFrame：

结构化数据文件

Hive中的表格

外部数据库

使用现有的RDD

Spark SQL数据集

Spark Dataset是Spark 1.6版本中添加的接口，它是一个分布式数据集合。我们可以用JVM对象创建数据集，之后使用功能转换（映射，过滤器等）对其进行操作，使用Scla和Java访问数据集API。Python不支持Dataset API，但由于Python的动态特性，可以使用Dataset API的许多好处，R也如此。

Spark Catalyst Optimizer

Spark SQL使用的优化器是Catalyst，它优化了用Spark SQL和DataFrame DSL编写的所有查询。优化器帮助我们以比RDD对应方式更快的速度运行查询，这提高了系统性能。

Spark Catalyst是一个基于规则的系统构建库，每条规则都侧重于具体优化。例如，ConstantFolding的重点是从查询中消除常量表达式。

Apache Spark SQL的使用

执行SQL查询；

我们可以使用SparkSQL从existingHive安装中读取数据；

当我们在另一种编程语言中运行SQL时，我们将得到结果作为数据集/数据框架。

由Spark SQL定义的函数

内置功能：提供内置函数处理列值，可以使用以下命令访问内置函数：

用户定义函数（UDF）：UDF允许根据Scala规则创建用户定义函数。

聚合函数：它们对一组行进行操作，并计算每组的返回值。

窗口化聚合（Windows）：对一组行进行操作，并为组中的每一行计算返回值。

Spark SQL的优点

在本节中，我们将讨论Apache Spark SQL的各种优点：

1、集成

Apache Spark SQL将SQL查询与Spark程序集成。在Spark SQL的帮助下，我们可以将结构化数据作为分布式数据集（RDD）查询，可以使用Spark SQL紧密集成属性与复杂的分析算法一起运行SQL查询。

2、统一数据访问

使用Spark SQL，我们可以加载和查询不同来源数据。Schema-RDD允许单个接口高效处理结构化数据。例如，Apache Hive tables, parquet files, and JSON files.

3、高兼容性

在Apache Spark SQL中，我们可以在现有仓库上运行未修改的Hive查询，允许使用Hive前端和MetaStore完全兼容现有Hive数据，查询和UDF。

4、标准连接

可通过JDBC或ODBC连接，包括具有行业标准JDBC和ODBC连接的服务器模式。

5、可扩展性

为了支持查询容错和大型作业，它利用了RDD模型，使用相同的引擎进行交互式查询。

6、性能优化

Spark SQL中的查询优化引擎在整个计划中选择最佳的执行计划。

7、用于批处理Hive表

使用Spark SQL快速批处理Hive表。

Spark SQL的缺点

除了这些功能外，Spark SQL还有一些缺点：

不支持Union类型；

无法创建或读取包含union字段的表；

插入超大Varchar类型不提示错误，即使插入值超出大小限制，也不会发生错误。如果从Hive读取，则相同的数据将截断，但如果从Spark读取则不会截断。SparkSQL会将varchar视为字符串，这意味着没有大小限制；

不支持Transactional表；

Spark SQL不支持Hive事务；

不支持char类型：无法阅读或创建包含此类字段的表格；

Avro表不支持时间戳

结论

总结来说，Spark SQL是Apache Spark的一个重要模块，用于分析结构化数据，提供可扩展性并确保系统的高兼容性。它通过JDBC或ODBC具有标准连接，提供了表达结构化数据最自然的方式。

IT168企业级

让一部分人先看到企业IT的未来

发表于: 2018-09-162018-09-16 19:50:23
原文链接：https://kuaibao.qq.com/s/20180916B19YVL00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

教程：Apache Spark SQL入门及实践指南！

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐