文章/答案/技术大牛

发布

2021年大数据Spark - Lanson

共 50 篇文章

2021年大数据Spark（一）：框架概述

2021年大数据Spark（二）：四大特点

2021年大数据Spark（三）：框架模块初步了解

2021年大数据Spark（四）：三种常见的运行模式

2021年大数据Spark（五）：大环境搭建本地模式 Local

2021年大数据Spark（六）：环境搭建集群模式 Standalone

2021年大数据Spark（七）：应用架构基本了解

2021年大数据Spark（八）：环境搭建集群模式 Standalone HA

2021年大数据Spark（九）：Spark On Yarn两种模式总结

2021年大数据Spark（十）：环境搭建集群模式 Spark on YARN

2021年大数据Spark（十一）：应用开发基于IDEA集成环境

2021年大数据Spark（十二）：Spark Core的RDD详解

2021年大数据Spark（十三）：Spark Core的RDD创建

2021年大数据Spark（十四）：Spark Core的RDD操作

2021年大数据Spark（十五）：Spark Core的RDD常用算子

2021年大数据Spark（十六）：Spark Core的RDD算子练习

2021年大数据Spark（十七）：Spark Core的RDD持久化

2021年大数据Spark（十八）：Spark Core的RDD Checkpoint

2021年大数据Spark（十九）：Spark Core的共享变量

2021年大数据Spark（二十）：Spark Core外部数据源引入

2021年大数据Spark（二十一）：Spark Core案例-SogouQ日志分析

2021年大数据Spark（二十二）：内核原理

2021年大数据Spark（二十三）：SparkSQL 概述

2021年大数据Spark（二十四）：SparkSQL数据抽象

2021年大数据Spark（二十五）：SparkSQL的RDD、DF、DS相关操作

2021年大数据Spark（二十六）：SparkSQL数据处理分析

2021年大数据Spark（二十七）：SparkSQL案例一花式查询和案例二WordCount

2021年大数据Spark（二十八）：SparkSQL案例三电影评分数据分析

2021年大数据Spark（二十九）：SparkSQL案例四开窗函数

2021年大数据Spark（三十）：SparkSQL自定义UDF函数

2021年大数据Spark（三十一）：Spark On Hive

2021年大数据Spark（三十二）：SparkSQL的External DataSource

2021年大数据Spark（三十三）：SparkSQL分布式SQL引擎

2021年大数据Spark（三十四）：Spark Streaming概述

2021年大数据Spark（三十五）：SparkStreaming数据抽象 DStream

2021年大数据Spark（三十六）：SparkStreaming实战案例一 WordCount

2021年大数据Spark（三十七）：SparkStreaming实战案例二 UpdateStateByKey

2021年大数据Spark（三十八）：SparkStreaming实战案例三状态恢复扩展

2021年大数据Spark（三十九）：SparkStreaming实战案例四窗口函数

2021年大数据Spark（四十）：SparkStreaming实战案例五 TopN-transform

2021年大数据Spark（四十一）：SparkStreaming实战案例六自定义输出 foreachRDD

2021年大数据Spark（四十二）：SparkStreaming的Kafka快速回顾与整合说明

2021年大数据Spark（四十三）：SparkStreaming整合Kafka 0.10 开发使用

2021年大数据Spark（四十四）：Structured Streaming概述

2021年大数据Spark（四十五）：Structured Streaming Sources 输入源

2021年大数据Spark（四十六）：Structured Streaming Operations 操作

2021年大数据Spark（四十七）：Structured Streaming Sink 输出

2021年大数据Spark（四十八）：Structured Streaming 输出终端/位置

2021年大数据Spark（四十九）：Structured Streaming 整合 Kafka

2021年大数据Spark（五十）：Structured Streaming 案例一实时数据ETL架构

清单首页2021年大数据Spark - Lanson文章详情

清单「2021年大数据Spark - Lanson」 26/50

2021年大数据Spark（二十六）：SparkSQL数据处理分析

Lansonli·腾云先锋腾云先锋（TDP）成员

SparkSQL数据处理分析

在SparkSQL模块中，将结构化数据封装到DataFrame或Dataset集合中后，提供两种方式分析处理数据，正如前面案例【词频统计WordCount】两种方式：

第一种：DSL（domain-specific language）编程，调用DataFrame/Dataset API（函数），类似RDD中函数；

第二种：SQL 编程，将DataFrame/Dataset注册为临时视图或表，编写SQL语句，类似HiveQL；

两种方式底层转换为RDD操作，包括性能优化完全一致，在实际项目中语句不通的习惯及业务灵活选择。比如机器学习相关特征数据处理，习惯使用DSL编程；比如数据仓库中数据ETL和报表分析，习惯使用SQL编程。无论哪种方式，都是相通的，必须灵活使用掌握。

基于DSL分析

调用DataFrame/Dataset中API（函数）分析数据，其中函数包含RDD中转换函数和类似SQL语句函数，部分截图如下：

类似SQL语法函数：调用Dataset中API进行数据分析，Dataset中涵盖很多函数，大致分类如下：

1、选择函数select：选取某些列的值

2、过滤函数filter/where：设置过滤条件，类似SQL中WHERE语句

3、分组函数groupBy/rollup/cube：对某些字段分组，在进行聚合统计

4、聚合函数agg：通常与分组函数连用，使用一些count、max、sum等聚合函数操作

5、排序函数sort/orderBy：按照某写列的值进行排序（升序ASC或者降序DESC）

6、限制函数limit：获取前几条数据，类似RDD中take函数

7、重命名函数withColumnRenamed：将某列的名称重新命名

8、删除函数drop：删除某些列

9、增加列函数withColumn：当某列存在时替换值，不存在时添加此列

上述函数在实际项目中经常使用，尤其数据分析处理的时候，其中要注意，调用函数时，通常指定某个列名称，传递Column对象，通过隐式转换转换字符串String类型为Column对象。

Dataset/DataFrame中转换函数，类似RDD中Transformation函数，使用差不多：

基于SQL分析

将Dataset/DataFrame注册为临时视图，编写SQL执行分析，分为两个步骤：

第一步、注册为临时视图

第二步、编写SQL，执行分析

其中SQL语句类似Hive中SQL语句，查看Hive官方文档，SQL查询分析语句语法，官方文档文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select

2021年大数据Spark - Lanson

2021年大数据Spark（二十六）：SparkSQL数据处理分析

SparkSQL数据处理分析

基于DSL分析

基于SQL分析

第一步、注册为临时视图

第二步、编写SQL，执行分析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

2021年大数据Spark - Lanson

2021年大数据Spark（二十六）：SparkSQL数据处理分析

​​​​​​​SparkSQL数据处理分析

基于DSL分析

​​​​​​​基于SQL分析

第一步、注册为临时视图

第二步、编写SQL，执行分析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

SparkSQL数据处理分析

基于SQL分析