Spark中的条件连接_生成动态连接条件spark/scala_spark中的条件计数 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

【大数据】SparkSql连接查询中的谓词下推处理(一)

SparkSQL 如何选择 join 策略

Join 操作是大数据分析领域必不可少的操作，本文将从原理层面介绍 SparkSQL 支持的五大连接策略及其应用场景。

【Spark重点难点07】SparkSQL YYDS(加餐)！

Spark发展到今天，Spark SQL的方式已经是官方推荐的开发方式了。在今年的Spark 3.0大版本发布中，Spark SQL的优化占比将近50%；而像PySpark、Mllib 和 Streaming的优化占比都不超过10%，Graph的占比几乎可以忽略不计。

每周学点大数据 | No.74 Spark 的核心操作——Transformation 和 Action

编者按：灯塔大数据将每周持续推出《从零开始学大数据算法》的连载，本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作，以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用，带我们在大数据技术的海洋里徜徉～每周五定期更新上期回顾&查看方式在上一期，我们学习了在 HDFS 上使用 Spark的相关内容。PS：了解了上期详细内容，请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看；或者滑到文末【往期推荐】查看 No.74 Spark 的核心操作——Transformation 和 Actio

011

如何在CDH中启用Spark Thrift

CDH 自带的Spark 不支持Spark Thrift，因为spark-assembly jar中缺少Hive thrift相关的依赖包，导致CDH用户没法使用JDBC的方式连接Spark并使用Spark SQL。Apache Spark 1.6之后spark-assembly jar 中包含了 Hive 相关的依赖包了，而恰好 CDH5.13 的 spark也是 1.6，所以可以直接使用Apache Spark 1.6 之后的spark-assembly jar替换CDH的。

算法工程师-SQL进阶：集合之间的较量

集合在数据库领域表示记录的集合。SQL是一门面向集合的语言，四则运算里的和、差、积已经加入到标准SQL，但由于其标准化进程比较缓慢，一些集合运算在主流的数据库如MySQL、HiveSQL中还未实现。

Spark实战1：单节点本地模式搭建Spark运行环境

http://d3kbcqa49mib13.cloudfront.net/spark-1.1.0-bin-hadoop1.tgz

从零爬着学spark

本文主要介绍了如何从零开始学习Spark，包括安装、部署、数据操作、函数编程、机器学习等方面的内容。作者以实际例子为引子，采用通俗易懂的语言，详细介绍了Spark的基本概念、操作、优化和调试方法，为初学者提供了一套系统的学习方案。

如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业

继上一章介绍如何使用R连接Hive与Impala后，Fayson接下来讲讲如何在CDH集群中提交R的Spark作业，Spark自带了R语言的支持，在此就不做介绍，本文章主要讲述如何使用Rstudio提供的sparklyr包，向CDH集群的Yarn提交R的Spark作业。

如何在Kerberos的CDH使用Sentry实现Spark SQL的权限控制

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》。本文主要介绍当集群启用Kerberos和Sentry后，如何实现Spark SQL的权限管理。因为社区版Spark SQL并未做任何权限控制。

Apache Kyuubi(Incubating)：网易对Serverless Spark的探索与实践

在 Apache 首次亚洲线上技术峰会 --ApacheCon Asia 大会上，网易数帆大数据专家，Apache Kyuubi PPMC，Apache Spark / Submarine Committer 燕青（Kent Yao）分享了 Apache Kyuubi 孵化器项目（注：下文中出现的 Apache Kyuubi/Kyuubi 等缩写均指代 Apache Kyuubi 孵化器项目）以及 Serverless Spark 在网易的实践和探索。Kyuubi 是网易数帆大数据团队开源的项目，在各位导师

如何使用java连接Kerberos和非kerberos和kerberos的Spark1.6 ThriftServer

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 前面Fayson介绍了《如何在CDH中启用Spark Thrift》和《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》，本篇文章Fayson主要介绍如何使用Java JDBC连接非Kerberos和Kerberos环境下Sp

在所有Spark模块中，我愿称SparkSQL为最强！

我们之前已经学习过了《我们在学习Spark的时候，到底在学习什么？》，这其中有一个关于SQL的重要模块：SparkSQL。

Spark的两种核心Shuffle详解（面试常问，工作常用）

在 MapReduce 框架中， Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁， Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O，因此 Shuffle 性能的高低直接影响整个程序的性能。Spark 也有 Map 阶段和 Reduce 阶段，因此也会出现 Shuffle 。

SparkSQL的3种Join实现

Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。

Hive 到底有什么用？

MapReduce简化大数据编程难度，但对经常需大数据计算的人，如从事研究BI的数据分析师，他们通常使用SQL进行大数据分析和统计，MapReduce编程还是有门槛。且若每次统计和分析都开发相应MapReduce程序，成本确实太高。

Spark源码系列（九）Spark SQL初体验之解析过程详解

好久没更新博客了，之前学了一些R语言和机器学习的内容，做了一些笔记，之后也会放到博客上面来给大家共享。一个月前就打算更新Spark Sql的内容了，因为一些别的事情耽误了，今天就简单写点，Spark1.2马上就要出来了，不知道变动会不会很大，据说添加了很多的新功能呢，期待中... 首先声明一下这个版本的代码是1.1的，之前讲的都是1.0的。 Spark支持两种模式，一种是在spark里面直接写sql，可以通过sql来查询对象，类似.net的LINQ一样，另外一种支持hive的HQL。不管是哪种方式，下面提到

原 SparkSQL语法及API

SparkSQL语法及API 一、SparkSql基础语法 1、通过方法来使用 1．查询 df.select("id","name").show(); 1>带条件的查询 df.select($"id",$"name").where($"name" === "bbb").show() 2>排序查询 orderBy/sort($"列名") 升序排列 orderBy/sort($"列名".desc) 降序排列 orderBy/sort($"列1" , $"列2".desc) 按两列排序

Spark的两种核心Shuffle详解（建议收藏）

【数据科学】数据科学中的 Spark 入门

本文由伯乐在线 - zhique 翻译，xxmen 校稿。未经许可，禁止转载！英文出处：Ram Sriharsha。欢迎加入翻译组。 Apache Spark 为数据科学提供了许多有价值的工具。随着 Apache Spark 1.3.1 技术预览版的发布，强大的 Data Frame API 也可以在 HDP 上使用数据科学家使用数据挖掘和可视化来帮助构造问题架构并对学习进行微调。Apache Zeppelin 正好能够帮他们做到这些。 Zeppelin 是一个基于 Web 的 notebook 服务器

Spark运行standalone集群模式

standalone模式，是spark自己实现的，它是一个资源调度框架。这里我们要关注这个框架的三个节点：

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

如何使用Spark大规模并行构建索引

使用Spark构建索引非常简单，因为spark提供了更高级的抽象rdd分布式弹性数据集，相比以前的使用Hadoop的MapReduce来构建大规模索引，Spark具有更灵活的api操作，性能更高，语法

Spark SQL中Not in Subquery为何低效以及如何规避

通过上述逻辑计划和物理计划可以看出，Spark SQL在对not in subquery处理，从逻辑计划转换为物理计划时，会最终选择BroadcastNestedLoopJoin（对应到Spark源码中BroadcastNestedLoopJoinExec.scala）策略。

Spark 基础（一）

Spark中，数据集被抽象为分布式弹性数据集（Resilient Distributed Datasets, RDDs）。

Spark难点 | Join的实现原理

当前SparkSQL支持三种join算法：Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前两者归根到底都属于Hash Join，只不过载Hash Join之前需要先Shuffle还是先Broadcast。其实，Hash Join算法来自于传统数据库，而Shuffle和Broadcast是大数据在分布式情况下的概念，两者结合的产物。因此可以说，大数据的根就是传统数据库。Hash Join是内核。

Spark难点 | Join的实现原理

Spark SQL是如何选择join策略的？

我们都知道，Spark SQL上主要有三种实现join的策略，分别是Broadcast hash join、Shuffle hash join、Sort merge join。那Catalyst是依据什么样的规则来选择join策略的？本文来简单补个漏。

0556-6.1.0-Hive On Spark修改作业临时配置文件生成目录

在Hive On Spark的模式下，无论是通过Beeline还是hive CLI访问Hive，使用Spark引擎执行SQL语句时，都会在/tmp目录下生成一个spark_submit.*.properties文件。Hive CLI方式会在当前节点/tmp目录生成，使用Beeline方式则会在HiveServer2所在节点的/tmp目录下生成。

Structured Streaming 编程指南

Structured Streaming 是一个基于 Spark SQL 引擎的、可扩展的且支持容错的流处理引擎。你可以像表达静态数据上的批处理计算一样表达流计算。Spark SQL 引擎将随着流式数据的持续到达而持续运行，并不断更新结果。你可以在Scala，Java，Python或R中使用 Dataset/DataFrame API 来表示流聚合，事件时间窗口（event-time windows），流到批处理连接（stream-to-batch joins）等。计算在相同的优化的 Spark SQL 引擎上执行。最后，通过 checkpoint 和 WAL，系统确保端到端的 exactly-once。简而言之，Structured Streaming 提供了快速、可扩展的、容错的、端到端 exactly-once 的流处理。

记一次 Kafka 集群线上扩容

前段时间收到某个 Kafka 集群的生产客户端反馈发送消息耗时很高，于是花了一段时间去排查这个问题，最后该集群进行扩容，由于某些主题的当前数据量实在太大，在对这些主题迁移过程中花费了很长一段时间，不过这个过程还算顺利，因为在迁移过程中也做足了各方面的调研，包括分区重平衡过程中对客户端的影响，以及对整个集群的性能影响等，特此将这个过程总结一下，也为双十一打了一剂强心剂。

【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户

其中，spark-sql_2.12是Spark SQL的核心依赖，spark-core_2.12是Spark的核心依赖。注意，版本号可以根据实际情况进行调整。

使用Wordbatch对Python分布式AI后端进行基准测试

在过去的几年里，Python已成为数据科学和人工智能的通用语言，所有使用Python作为主要界面语言的着名深度学习框架（Keras，Pytorch，MXNet）。与竞争语言相比，Python在DS和AI的几乎每个方面都可以与之竞争或超越：最新的机器学习算法及其高效实现（Scikit-Learn，LightGBM，XGBoost），数据处理和分析（Pandas，cuDF），高效的数值计算库（Numpy），PyPy，Numba），GPU计算（CuPY）和Web API编程（Flask，Celery）。

李呈祥：bilibili在湖仓一体查询加速上的实践与探索

导读：本文主要介绍哔哩哔哩在数据湖与数据仓库一体架构下，探索查询加速以及索引增强的一些实践。主要内容包括：

大数据面试题V3.0，523道题，779页，46w字

面试题总结是一个长期工作，面试不停，这份面试题总结就不会停。以后会慢慢把Java相关的面试题、计算机网络等都加进来，其实这不仅仅是一份面试题，更是一份面试参考，让你熟悉面试题各种提问情况，当然，项目部分，就只能看自己了，毕竟每个人简历、实习、项目等都不一样。

Spark：超越Hadoop MapReduce

大数据对一些数据科学团队来说是主要的挑战，因为在要求的可扩展性方面单机没有能力和容量来运行大规模数据处理。此外，即使专为大数据设计的系统，如 Hadoop，由于一些数据的属性问题也很难有效地处理图数据，我们将在本章的其他部分看到这方面的内容。

自适应查询执行：在运行时提升Spark SQL执行性能

Catalyst是Spark SQL核心优化器，早期主要基于规则的优化器RBO，后期又引入基于代价进行优化的CBO。但是在这些版本中，Spark SQL执行计划一旦确定就不会改变。由于缺乏或者不准确的数据统计信息（如行数、不同值的数量、NULL值、最大/最小值等）和对成本的错误估算导致生成的初始计划不理想，从而导致执行效率相对低下。

如何使用TiFlash ？干货分享

例：ALTER TABLE ‘test’.’tab_a’ SET TIFLASH REPLICA 2

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐