Spark SQL join真的很懒吗？_Spark Sql Dataframe Join on one field_将Groupby with Join Spark SQL查询更改为Spark Dataframe - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Apache Spark 3.0 自适应查询优化在网易的深度实践及改进

本文基于 Apahce Spark 3.1.1 版本，讲述 AQE 自适应查询优化的原理，以及网易有数在 AQE 实践中遇到的痛点和做出的思考。

01

sparksql 概述

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。

03

您找到你想要的搜索结果了吗？

是的

没有找到

Spark SQL 快速入门系列(1) | Spark SQL 的简单介绍！

Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块.

02

为什么去开发一个MLSQL

第一个，算法的着眼点是，用最快速的方式清洗一些数据出来，然后接着建模训练，评估预测效果，之后再重复清洗数据，再试验。因为很多算法工程师都是Python系的，对他们来说，最简单的方式自然是写python程序。一旦确认清洗方式后，这种数据清洗工作，最后研发工程师还要再重新用Spark去实现一遍。那么如果让算法工程师在做数据清洗的时候，直接使用PySpark呢？这样复用程度是不是可以有所提高？实际上是有的。但是算法工程师初期用起来会比较吃力，因为PySpark的学习成本还是有的，而且不小。

02

15G的Hadoop基础入门干货大放送！从教程到工具包再到电子书，让你零基础也能学会！

昨天，总在投资风口的朱啸虎分享了雕爷的文章--“来，喝了这碗区块链解毒汤！”，并附上了转发语：雕爷这篇文章还是赞的。

01

spark入门基础知识常见问答整理

一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布

MLSQL拥抱BigDL,轻轻松松无编码玩深度学习

原谅我，前半句是真的，后半句是噱头，但是真的很简化了。 MLSQL已经有一个相对来比较完善的Python Runtime,细节可以参看这篇文章，所以玩深度学习是很容易的，不过需要你提供一段tensorflow代码或者项目。

02

Spark SQL重点知识总结

Spark SQL是spark套件中一个模板，它将数据的计算任务通过SQL的形式转换成了RDD的计算，类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。

03

「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化

Apache Spark 自 2010 年面世，到现在已经发展为大数据批计算的首选引擎。而在 2020 年 6 月份发布的Spark 3.0 版本也是 Spark 有史以来最大的 Release，其中将近一半的 issue 都属于 SparkSQL。这也迎合我们现在的主要场景（90% 是 SQL），同时也是优化痛点和主要功能点。我们 Erda 的 FDP 平台（Fast Data Platform）也从 Spark 2.4 升级到 Spark 3.0 并做了一系列的相关优化，本文将主要结合 Spark 3.0 版本进行探讨研究。

03

大数据与云计算技术周报（第150期)

影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化，也包含Hive配置项和MR方面的调整。

04

学习这门语言两个月了，还是卡在了加减乘除这里...

因为业务需要（项目技术栈为 spark 2+ ），七八月份兴冲冲从学校图书馆借了书，学了 scala + spark ，还写了不少博文，其中有几篇被拿来发推送：Scala，一门「特立独行」的语言！、【疑惑】如何从 Spark 的 DataFrame 中取出具体某一行？ ...

02

Spark SQL底层执行流程详解（好文收藏）

一、Apache Spark 二、Spark SQL发展历程三、Spark SQL底层执行原理四、Catalyst 的两大优化

02

教你读懂大数据的技术生态圈

大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所需要的各种工具：锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。

03

一文教你看懂大数据的技术生态圈 Hadoop,hive,spark

大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据。传统的文件系统是单机的，不能横跨不同的机器。HDFS（Hadoop Distributed FileSystem）的设计本质上是为了大量的数据能横跨成百上

05

Hadoop、Hive、Spark 之间是什么关系？

大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据传统的文件系统是单机的，不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千

spark面试该准备点啥

最近很多球友都说在准备面试，不知道准备点啥，尤其是spark，实际上星球里浪尖分享的内容真的都掌握了，应对一般面试绝对没问题，但是遗憾的事情是很多人都是处于不会主动搜集资料，主动梳理知识，主动记忆整理知识，而是伸手要粮的境地。浪尖觉得这个是阻止你成长的罪魁祸手。前天跟朋友聚餐就说道这种情况，不努力，不加班给自己喂粮的，没有足够量和时间积累的人很难在一个领域里有所建树。

05

大数据干货系列（六）-Spark总结

本文共计1611字，预计阅读时长八分钟 Spark总结一、本质 Spark是一个分布式的计算框架，是下一代的MapReduce，扩展了MR的数据处理流程二、mapreduce有什么问题 1.调度慢，启动map、reduce太耗时 2.计算慢，每一步都要保存中间结果落磁盘 3.API抽象简单，只有map和reduce两个原语 4.缺乏作业流描述，一项任务需要多轮mr 三、spark解决了什么问题 1.最大化利用内存cache 2.中间结果放内存，加速迭代 3.将结果集放内存，加速后续查询和处理，解决运行慢

05

Spark随笔 —— RDD 与 DataSet

本篇文章进对 RDD 和 DataSet 进行对比和总结。当然因为随笔，所以想到哪写到哪... 哎~，最近变懒了，都不想动脑子了！！！

02

大数据技术Spark学习

Spark SQL 是 Spark 用来处理结构化数据的一个模块，它提供了一个编程抽象叫做 DataFrame，并且作为分布式 SQL 查询引擎的作用。我们已经学习了 Hive，它是将 Hive SQL 转换成 MapReduce 然后提交到集群上执行，大大简化了编写 MapReduce 的程序的复杂性，由于 MapReduce 这种计算模型执行效率比较慢。所以 Spark SQL 的应运而生，它是将 Spark SQL 转换成 RDD，然后提交到集群执行，执行效率非常快！

06

Delta Lake - 数据湖的数据可靠性

今天笔者将分享一位大神关于 Delta Lake 的演讲内容。这位是 Apache Spark 的 committer 和 PMC 成员，也是 Spark SQL 的最初创建者，目前领导 Databricks 团队，设计和构建 Structured Streaming 和 Databricks Delta，技术涉及分布式系统、大规模结构化存储和查询优化等方面。

04

SparkSQL的3种Join实现

Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。

03

如何从 Pandas 迁移到 Spark？这 8 个问答解决你所有疑问

作者 | Sanket Gupta 译者 | 王强策划 | 刘燕本文最初发布于 Medium 网站，经原作者授权由 InfoQ 中文站翻译并分享。当你的数据集变得越来越大，迁移到 Spark 可以提高速度并节约时间。多数数据科学工作流程都是从 Pandas 开始的。 Pandas 是一个很棒的库，你可以用它做各种变换，可以处理各种类型的数据，例如 CSV 或 JSON 等。我喜欢 Pandas — 我还为它做了一个名为“为什么 Pandas 是新时代的 Excel”的播客。我仍然认为 Pandas

01

聊聊DatabricksSQL和Apache Kyuubi

新粉请关注我的公众号昨天写了一篇文章Apache Kyuubi：一个有趣的大数据开源项目，介绍了网易开源的Apache Kyuubi，是如何把Spark变成为一个数仓的。有一些人联系我，有问我是不是不知道有个产品叫Databricks SQL的，也有问我Databricks SQL和这个比起来怎么样。有这么多问题，我想我应该没办法一个接一个回答。所以我还是简单写一篇文章。首先，大家不用怀疑我知道还是不知道Databricks SQL这个产品。我是不是大数据专家这一点大家可以质疑。我是不是大数据八卦专

04

在所有Spark模块中，我愿称SparkSQL为最强！

我们之前已经学习过了《我们在学习Spark的时候，到底在学习什么？》，这其中有一个关于SQL的重要模块：SparkSQL。

02

飞总带大家解读 AWS re:Invent 2022大数据相关的发布，一句话总结：惨不忍睹。。。

兴致勃勃的在网络上看了亚马逊AWS年度大会re:Invent2022。我每年有空就会看，虽然从来没去LasVegas现场参观。

02

大数据问题汇总——小白入门问题答案汇总

作者：z01_ejdazhi 来源：http://blog.csdn.net/z01_ejdazhi/article/details/56009000 一、大数据技术的发展的三个阶段 01 存起来-等

07

专栏 | Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性

本来应该上周更新的，结果碰上五一，懒癌发作，就推迟了 = =。以后还是要按时完成任务。废话不多说，第四章-第六章主要讲了三个内容：键值对、数据读取与保存与Spark的两个共享特性（累加器和广播变量）。

09

Spark系列 - (3) Spark SQL

Hive：Hadoop刚开始出来的时候，使用的是hadoop自带的分布式计算系统 MapReduce，但是MapReduce的使用难度较大，所以就开发了Hive。Hive的出现解决了MapReduce的使用难度较大的问题，Hive的运行原理是将HQL语句经过语法解析、逻辑计划、物理计划转化成MapReduce程序执行。

01

Apache-Flink深度解析-JOIN 算子

在《SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式，介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的，那么再深思一下传统数据库为啥需要有JOIN算子呢？在实现原理上面Apache Flink内部实现和传统数据库有什么区别呢？本篇将详尽的为大家介绍传统数据库为什么需要JOIN算子，以及JOIN算子在Apache Flink中的底层实现原理和在实际使用中的优化！

03

Note

虽然每天和数据库打交道，但是对这个老伙计真的是不太了解，今天早上看到一篇文章说不推荐使用关系型数据库，咦，好像现在大部分使用的都是关系型数据库啊，那篇文章的点赞率还是蛮高的，难道是我对关系型数据库有什么误解么？于是上维基看看，我接触的大部分都是关系型数据库，于是又把那篇文章看了一遍，关于他说的关系型数据库存在一堆问题，但是我实在没怎么用过其他的数据库

02

Spark调优 | Spark SQL参数调优

Spark SQL里面有很多的参数，而且这些参数在Spark官网中没有明确的解释，可能是太多了吧，可以通过在spark-sql中使用set -v 命令显示当前spark-sql版本支持的参数。

06

不会这20个Spark热门技术点，你敢出去面试大数据吗?

关于大数据面试中对Spark的知识考查不需本菌多解释什么了吧~本篇博客，博主为大家分享20个Spark热门技术点，希望今年出去面试，实习的同学，尤其是想去大厂的同学，一定要把下面的20个技术点看完。

02

再来一个诊断SparkSql慢任务的案例吧

前天晚上，被拉群，给了一批慢任务，严重影响体验，任务运行时长如下图，有的任务跑了一天，还没跑完，该怎么着手优化呢？

05

PageRank算法在spark上的简单实现

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51383232

02

Spark Core快速入门系列(7) | Spark Job 的划分

由于 Spark 的懒执行, 在驱动程序调用一个action之前, Spark 应用不会做任何事情. 针对每个 action, Spark 调度器就创建一个执行图(execution graph)和启动一个 Spark job 每个 job 由多个stages 组成, 这些 stages 就是实现最终的 RDD 所需的数据转换的步骤. 一个宽依赖划分一个 stage. 每个 stage 由多个 tasks 来组成, 这些 tasks 就表示每个并行计算, 并且会在多个执行器上执行.

01

Spark 凭什么成为最火的大数据计算引擎？| 极客时间

现在，几乎所有公司都离不开推荐、广告、搜索这 3 类业务场景，因此 Spark 也相应成了大多数互联网公司的标配：美团在 2014 年就引入 Spark，并将其逐渐覆盖到大多数业务线；字节跳动也基于 Spark 构建数据仓库，去服务了几乎所有的产品线；还有 Facebook 也将数据分析引擎切换为 Spark。以美团为例，它海量的日志数据将被汇总处理、分析、挖掘与学习，为各种推荐、搜索系统甚至公司战略目标制定提供数据支持。而 Spark 能在相同资源使用情况下，把作业执行的速度提升百倍，极大的提高了生

03

Apache-Flink深度解析-JOIN 算子

在《Apache Flink 漫谈系列 - SQL概览》中我对JOIN算子有过简单的介绍，这里我们以具体实例的方式让大家对JOIN算子加深印象。JOIN的本质是分别从N(N>=1)张表中获取不同的字段，进而得到最完整的记录行。比如我们有一个查询需求：在学生表(学号，姓名，性别)，课程表(课程号，课程名，学分)和成绩表(学号，课程号，分数)中查询所有学生的姓名，课程名和考试分数。如下：

03

Spark SQL 性能优化再进一步 CBO 基于代价的优化

上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO，实现简单有效。它属于 LogicalPlan 的优化，所有优化均基于 LogicalPlan 本身的特点，未考虑数据本身的特点，也未考虑算子本身的代价。

03

第三天：SparkSQL

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！

01

Spark SQL JOIN

本文主要介绍 Spark SQL 的多表连接，需要预先准备测试数据。分别创建员工和部门的 Datafame，并注册为临时视图，代码如下：

02

惰性求值，懒执行，Lazy Evaluations

最近看webflux的时候，补习一些基础（自己原因，之前没有做）发现java Stream流操作，类似map(i -> i*2) 这样的中间操作，有惰性求值的特性

02

Spark2.x学习笔记：15、Spark SQL的SQL

本文介绍了Spark 2.x版本中的SQL模块，包括SQL语句的执行、DataFrame和DataSet的转化、以及执行复杂查询等功能。同时，还介绍了如何通过SparkSession来执行SQL查询，以及如何使用DataFrame和DataSet来处理数据。

08

Spark SQL 之 Join 实现

本文介绍了Spark SQL的Join实现原理、不同Join方式的实现流程、优化策略以及社区现状，为Spark SQL的Join实现提供了全面且深入的解析，有助于开发者深入了解Spark SQL的Join实现细节，从而更好地利用Spark SQL进行数据处理和分析。

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

【前言：如果你经常使用Spark SQL进行数据的处理分析，那么对笛卡尔积的危害性一定不陌生，比如大量占用集群资源导致其他任务无法正常执行，甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积，以及如何事前"预测"写的SQL会产生笛卡尔积从而避免呢？（以下不考虑业务需求确实需要笛卡尔积的场景）】

02

Apache Kyuubi(Incubating)：网易对Serverless Spark的探索与实践

在 Apache 首次亚洲线上技术峰会 --ApacheCon Asia 大会上，网易数帆大数据专家，Apache Kyuubi PPMC，Apache Spark / Submarine Committer 燕青（Kent Yao）分享了 Apache Kyuubi 孵化器项目（注：下文中出现的 Apache Kyuubi/Kyuubi 等缩写均指代 Apache Kyuubi 孵化器项目）以及 Serverless Spark 在网易的实践和探索。Kyuubi 是网易数帆大数据团队开源的项目，在各位导师

01

SQL、Pandas和Spark：常用数据查询操作对比

当今信息时代，数据堪称是最宝贵的资源。沿承系列文章，本文对SQL、Pandas和Spark这3个常用的数据处理工具进行对比，主要围绕数据查询的主要操作展开。

02

通过扩展 Spark SQL ，打造自己的大数据分析引擎

Spark SQL 的 Catalyst ，这部分真的很有意思，值得去仔细研究一番，今天先来说说Spark的一些扩展机制吧，上一次写Spark，对其SQL的解析进行了一定的魔改，今天我们按套路来，使用砖厂为我们提供的机制，来扩展Spark...

02

Yii数据库操作方法指南

CDbConnection: 一个抽象数据库连接 CDbCommand: SQL statement CDbDataReader: 匹配结果集的一行记录 CDbTransaction：数据库事务访问数据库前需要建立数据库连接；使用DAO建立一个抽象数据库链接： $connection = new CDbConnection($dsn, $username, $password); $connection->active = true; // 只有激活了连接才可以使用 $connection->a

07

Spark调优 | 不可避免的 Join 优化

在阐述Join实现之前，我们首先简单介绍SparkSQL的总体流程，一般地，我们有两种方式使用SparkSQL，一种是直接写sql语句，这个需要有元数据库支持，例如Hive等，另一种是通过Dataset/DataFrame编写Spark应用程序。如下图所示，sql语句被语法解析(SQL AST)成查询计划，或者我们通过Dataset/DataFrame提供的APIs组织成查询计划，查询计划分为两大类：逻辑计划和物理计划，这个阶段通常叫做逻辑计划，经过语法分析(Analyzer)、一系列查询优化(Optimizer)后得到优化后的逻辑计划，最后被映射成物理计划，转换成RDD执行。

02

使用 Spark | 手把手带你十步轻松拿下 Spark SQL 使用操作

在《20张图详解 Spark SQL 运行原理及数据抽象》的第 5 节“SparkSession”中，我们知道了 Spark SQL 就是基于 SparkSession 作为入口实现的。

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭