开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

针对缓存表的Spark SQL分区修剪

是一种优化技术，用于提高Spark SQL查询性能和减少资源消耗。在Spark SQL中，缓存表是指将数据加载到内存中，以便后续查询可以更快地访问数据。

分区修剪是指根据查询条件，只加载满足条件的数据分区到内存中，而不是加载所有的数据分区。这样可以减少内存占用和IO开销，提高查询效率。

优势：

提高查询性能：只加载满足条件的数据分区，减少了不必要的数据读取和处理，从而加快了查询速度。
节省资源消耗：由于只加载部分数据分区，减少了内存占用和IO开销，节省了系统资源。
支持大规模数据处理：对于大规模数据集，分区修剪可以避免一次性加载所有数据，而是按需加载，提高了系统的可扩展性。

应用场景：

大数据分析：在大数据分析场景中，数据量通常很大，使用分区修剪可以提高查询效率，加快分析速度。
实时数据处理：对于实时数据处理任务，分区修剪可以减少数据加载时间，提高实时性能。
数据仓库：在数据仓库中，使用缓存表和分区修剪可以加速数据查询和分析。

推荐的腾讯云相关产品：腾讯云提供了一系列与大数据处理和分析相关的产品，以下是其中几个推荐的产品：

腾讯云数据仓库 ClickHouse：腾讯云的ClickHouse是一种高性能、可扩展的列式数据库，适用于大规模数据分析和实时查询。
腾讯云数据湖分析 DLA：腾讯云的DLA是一种快速、弹性的数据湖分析服务，支持使用SQL查询数据湖中的数据。
腾讯云弹性MapReduce EMR：腾讯云的EMR是一种大数据处理平台，支持使用Spark、Hadoop等分布式计算框架进行数据处理和分析。

更多产品信息和详细介绍，请访问腾讯云官方网站：https://cloud.tencent.com/

相关搜索:多级分区表的Spark (EMR)分区修剪行为找不到Spark SQL表分区文件从Spark读取sql表数据时的分区问题如何使用Spark SQL识别hive表中的分区列 Spark SQL中缓存机制的差异基于Spark临时表的Hive创建分区表分区表SQL的别名 Spark SQL:生成的分区数量似乎很奇怪 Spark不使用Hive分区外部表中的分区信息 spark分区拼图文件中的Impala表 SQL:跨表分区的交叉联接 Spark SQL表的基本统计估计如何在spark scala中覆盖特定的表分区如何在Spark中获取hive表的分区信息针对列差异不大的相似表的SQL设计在Spark SQL中加入分区以获得更好的性能 spark sql无法查询S3中的拼图分区数据库(Spark SQL)表的索引针对多个表之一的SQL Server外键 Spark将数据写入分区Hive表的速度非常慢

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

五分钟系列 | Spark3.0新特性之动态分区裁剪

Apache Spark 3.0.0 终于赶在下周二举办的 Spark Summit AI 会议之前正式发布了! Apache Spark 3.0.0 自2018年10月02日开发到目前已经经历了近21个月。

01

CDP的hive3概述

Cloudera Runtime（CR）服务包括Hive和Hive Metastore。Hive服务基于Apache Hive 3.x（基于SQL的数据仓库系统）。Hive 3.x与以前版本相比的增强功能可以提高查询性能并符合Internet法规。

02

为什么我们选择parquet做数据存储格式

来源:https://www.cnblogs.com/piaolingzxh/p/5469964.html

04

Spark 3.0如何提高SQL工作负载的性能

在几乎所有处理复杂数据的部门中，Spark很快已成为跨数据和分析生命周期的团队的事实上的分布式计算框架。新的Adaptive Query Execution框架（AQE）是Spark 3.0最令人期待的功能之一，它可以解决困扰许多Spark SQL工作负载的问题。英特尔和百度混合团队在2018年初的博客中记录了这些内容。要更深入地了解框架，请学习我们更新的Apache Spark Performance Tuning课程。

02

在所有Spark模块中，我愿称SparkSQL为最强！

我们之前已经学习过了《我们在学习Spark的时候，到底在学习什么？》，这其中有一个关于SQL的重要模块：SparkSQL。

02

浪尖以案例聊聊spark 3.0 sql的动态分区裁剪

本文主要讲讲，spark 3.0之后引入的动态分区裁剪机制，这个会大大提升应用的性能，尤其是在bi等场景下，存在大量的where条件操作。

03

浪尖以案例聊聊spark3的动态分区裁剪

动态分区裁剪，其实就牵涉到谓词下推，希望在读本文之前，你已经掌握了什么叫做谓词下推执行。

02

apache hudi 0.13.0版本重磅发布

Apache Hudi 0.13.0引入了一系列新特性，包括Metaserver, Change Data Capture, new Record Merge API, new sources for Deltastreamer等。虽然此版本不需要表版本升级，但希望用户在使用 0.13.0 版本之前按照下面的迁移指南采取相关重大更改和行为更改的操作。

01

sparksql调优之第一弹

1，jvm调优这个是扯不断，理还乱。建议能加内存就加内存，没事调啥JVM，你都不了解JVM和你的任务数据。 spark调优系列之内存和GC调优 2，内存调优缓存表 spark2.+采用： spark.catalog.cacheTable("tableName")缓存表，spark.catalog.uncacheTable("tableName")解除缓存。 spark 1.+采用：采用 sqlContext.cacheTable("tableName")缓存，sqlContext.uncacheTa

08

spark sql 非业务调优

这个是扯不断，理还乱。建议能加内存就加内存，没事调啥JVM，你都不了解JVM和你的任务数据。默认的参数已经很好了，对于GC算法，spark sql可以尝试一些 G1。

03

5分钟入门数据湖IceBerg

随着大数据存储和处理需求的多样化，如何构建一个统一的数据湖存储，并在其上进行多种形式的数据分析成了企业构建大数据生态的一个重要方向。Netflix 发起的 Apache Iceberg 项目具备 ACID 能力的表格式成为了大数据、数据湖领域炙手可热的方向。

04

Apache Hudi 0.11 版本重磅发布，新特性速览!

在 0.11.0 中，默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing，以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面，用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此，使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关，您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。

03

基于AIGC写作尝试：深入理解 Apache Hudi

本文的目的是为读者提供全面了解Apache Hudi的知识。具体而言，读者可以了解到Apache Hudi是什么、它的架构如何工作、常见的使用案例以及与之配合工作的最佳实践。此外，读者还将获得有关如何设置和配置Apache Hudi，以及优化其性能的技巧的见解。通过阅读本文，读者应该对Apache Hudi有扎实的理解，并了解如何在其数据处理流程中利用它的优势。

02

数据湖解决方案关键一环，IceBerg会不会脱颖而出？

小编在之前的详细讲解过关于数据湖的发展历程和现状，《我看好数据湖的未来，但不看好数据湖的现在》，在最后一部分中提到了当前数据湖的解决方案中，目前跳的最凶的三巨头包括：Delta、Apache Iceberg 和 Apache Hudi。

02

Apache Hudi 0.14.0版本重磅发布！

Apache Hudi 0.14.0 标志着一个重要的里程碑，具有一系列新功能和增强功能。其中包括引入Record Level Index、自动生成记录键、用于增量读取的 hudi_table_changes函数等等。值得注意的是，此版本还包含对 Spark 3.4 的支持。在 Flink 方面，0.14.0 版本带来了一些令人兴奋的功能，例如一致哈希索引支持、支持Flink 1.17 以及支持更新和删除语句。此外此版本还升级了Hudi表版本，提示用户查阅下面提供的迁移指南。我们鼓励用户在采用 0.14.0 版本之前查看重大特性、重大变化和行为变更。

03

Hudi、Iceberg 和 Delta Lake：数据湖表格式比较

在构建数据湖时，可能没有比存储数据格式更重要的决定了。结果将直接影响其性能、可用性和兼容性。

02

如何在 CDP 的湖仓一体中使用Iceberg

2022 年 6 月，Cloudera宣布在 Cloudera 数据平台 (CDP) 中全面推出 Apache Iceberg。Iceberg 是一种 100% 开放表格式，由Apache Software Foundation开发，可帮助用户避免供应商锁定并实现开放式 Lakehouse。

01

Hudi小文件问题处理和生产调优个人笔记

Apache Hudi提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。

02

Spark SQL的Parquet那些事儿.docx

Parquet是一种列式存储格式，很多种处理引擎都支持这种存储格式，也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件，并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时，处于兼容的原因所有的列都被自动转化为了nullable。

03

Spark SQL的Parquet那些事儿

Parquet是一种列式存储格式，很多种处理引擎都支持这种存储格式，也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件，并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时，处于兼容的原因所有的列都被自动转化为了nullable。

05

Apache CarbonData 简介

Apache CarbonData 是一种索引列式数据格式，专为快速分析和实时洞察至关重要的大数据场景而开发。这个强大的数据存储解决方案是 Apache 软件基金会内的顶级项目，提供了一种更结构化、更高效、更快速的方法来处理和分析大型数据集

02

使用 Apache Hudi + Daft + Streamlit 构建 Lakehouse 分析应用

为了应对这些挑战，像 Streamlit[1] 这样的低代码工具作为 Python 生态系统的包装器，允许将 API、模型和业务逻辑变为现实。Streamlit 支持从数据库、API 和文件系统等各种来源轻松使用数据，从而轻松集成到应用程序中。在这篇博客中，我们将重点介绍如何使用直接来自开放湖仓一体平台的数据来构建数据应用。

01

SparkSQL执行时参数优化

近期接手了不少大数据表任务调度补数据的工作,补数时发现资源消耗异常的大且运行速度却不怎么给力.

01

基于AIGC的写作尝试：Presto: A Decade of SQL Analytics at Meta（翻译）

Presto是一个开源的分布式SQL查询引擎，支持多个EB级数据源的分析工作负载。Presto用于低延迟的交互式用例以及Meta的长时间运行的ETL作业。它最初于2013年在Meta推出，并于2019年捐赠给Linux基金会。在过去的十年中，随着Meta数据量的超级增长以及新的SQL分析需求，维护查询延迟和可扩展性对Presto提出了令人印象深刻的挑战。其中一个最重要的优先事项是确保查询可靠性不会随着向更小、更弹性的容器分配的转变而退化，这需要查询在显著较小的内存余量下运行，并且可以随时被抢占。此外，来自机器学习、隐私政策和图形分析的新需求已经促使Presto维护者超越传统的数据分析。在本文中，我们讨论了近年来几个成功的演变，这些演变在Meta的生产环境中将Presto的延迟和可扩展性提高了数个数量级。其中一些值得注意的是分层缓存、本地矢量化执行引擎、物化视图和Presto on Spark。通过这些新的能力，我们已经弃用了或正在弃用各种传统的查询引擎，以便Presto成为为整个数据仓库服务的单一组件，用于交互式、自适应、ETL和图形处理工作负载。

浅谈Spark在大数据开发中的一些最佳实践

eBay 智能营销部门致力于打造数据驱动的业务智能中台，以支持业务部门快速开展营销活动。目前在我们正在构建一个基于eBay站外营销的业务全渠道漏斗分析指标，涉及近十个营销渠道、数十张数据源表，每天处理的数据达到上百TB。由于业务复杂、数据源异构、指标计算逻辑频繁变更、数据体量巨大，如何快速完成数据处理开发任务是一个巨大的挑战。在长时间的生产实践中，我们总结了一套基于Scala开发Spark任务的可行规范，来帮助我们写出高可读性、高可维护性和高质量的代码，提升整体开发效率。

02

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

本文介绍了基于Spark的SQL编程的常用概念和技术。首先介绍了Spark的基本概念和架构，然后详细讲解了Spark的数据类型和SQL函数，最后列举了一些Spark在实际应用中的例子。

08

探索 eBay 用于交互式分析的全新优化 Spark SQL 引擎

作者 | Gang Ma 等译者 | Sambodhi 策划 | 闫园园看一下 eBay 如何创建优化的 SQL 解决方案，它可以为新的基于开源的分析平台提供更高的速度、稳定性和可扩展性。最近，eBay 完成了把超过 20PB 的数据从一个提供商的分析平台迁移到内部构建的基于开源的 Hadoop 系统。这次迁移使得 eBay 以技术为主导的重新构想与第三方服务提供商脱钩。与此同时，它也给 eBay 提供了一个机会，建立一套相互补充的开源系统来支持对用户体验的分析。这个迁移过程中面临的

03

调优 | Apache Hudi应用调优指南

通过Spark作业将数据写入Hudi时，Spark应用的调优技巧也适用于此。如果要提高性能或可靠性，请牢记以下几点。输入并行性：Hudi对输入进行分区默认并发度为1500，以确保每个Spark分区都在2GB的限制内（在Spark2.4.0版本之后去除了该限制），如果有更大的输入，则相应地进行调整。我们建议设置shuffle的并发度，配置项为 hoodie.[insert|upsert|bulkinsert].shuffle.parallelism，以使其至少达到inputdatasize/500MB。 Off-heap（堆外）内存：Hudi写入parquet文件，需要使用一定的堆外内存，如果遇到此类故障，请考虑设置类似 spark.yarn.executor.memoryOverhead或 spark.yarn.driver.memoryOverhead的值。 Spark 内存：通常Hudi需要能够将单个文件读入内存以执行合并或压缩操作，因此执行程序的内存应足以容纳此文件。另外，Hudi会缓存输入数据以便能够智能地放置数据，因此预留一些 spark.memory.storageFraction通常有助于提高性能。调整文件大小：设置 limitFileSize以平衡接收/写入延迟与文件数量，并平衡与文件数据相关的元数据开销。时间序列/日志数据：对于单条记录较大的数据库/ nosql变更日志，可调整默认配置。另一类非常流行的数据是时间序列/事件/日志数据，它往往更加庞大，每个分区的记录更多。在这种情况下，请考虑通过 .bloomFilterFPP()/bloomFilterNumEntries()来调整Bloom过滤器的精度，以加速目标索引查找时间，另外可考虑一个以事件时间为前缀的键，这将使用范围修剪并显着加快索引查找的速度。 GC调优：请确保遵循Spark调优指南中的垃圾收集调优技巧，以避免OutOfMemory错误。[必须]使用G1 / CMS收集器，其中添加到spark.executor.extraJavaOptions的示例如下： -XX:NewSize=1g -XX:SurvivorRatio=2 -XX:+UseCompressedOops -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintTenuringDistribution -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof OutOfMemory错误：如果出现OOM错误，则可尝试通过如下配置处理：spark.memory.fraction=0.2，spark.memory.storageFraction=0.2允许其溢出而不是OOM（速度变慢与间歇性崩溃相比）。以下是完整的生产配置 spark.driver.extraClassPath /etc/hive/conf spark.driver.extraJavaOptions -XX:+PrintTenuringDistribution -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintGCTimeStamps -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof spark.driver.maxResultSize 2g spark.driver.memory 4g spark.executor.cores 1 spark.executor.extraJavaOptions -XX:+PrintFlagsFinal -XX:+PrintReferenceGC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintAdaptiveSizePolicy -XX:+UnlockDiagnosticVMOptions -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-

02

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

周末的任务是更新Learning Spark系列第三篇，以为自己写不完了，但为了改正拖延症，还是得完成给自己定的任务啊 = =。这三章主要讲Spark的运行过程（本地+集群），性能调优以及Spark SQL相关的知识，如果对Spark不熟的同学可以先看看之前总结的两篇文章：【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性 #####我是

Spark基础全解析

第一，MapReduce模型的抽象层次低，大量的底层逻辑都需要开发者手工完成。第二，只提供Map和Reduce两个操作。举个例子，两个数据集的Join是很基本而且常用的功能，但是在MapReduce的世界中，需要对这两个数据集做一次Map和Reduce才能得到结果。第三，在Hadoop中，每一个Job的计算结果都会存储在HDFS文件存储系统中，所以每一步计算都要进行硬盘的读取和写入，大大增加了系统的延迟。第四，只支持批数据处理，欠缺对流数据处理的支持。

02

hudi的索引机制以及使用场景

Apache Hudi 使用索引来定位更新/删除所属的文件组。对于 Copy-On-Write 表，通过避免需要连接整个数据集来确定要重写哪些文件，这可以实现快速的 upsert/delete 操作。对于 Merge-On-Read 表，这种设计允许 Hudi 限制任何给定基本文件需要合并的记录数量。具体来说，给定的基本文件只需要针对属于该基本文件一部分的记录的更新进行合并。相比之下，没有索引组件的设计（例如：Apache Hive ACID）可能最终必须根据所有传入的更新/删除记录合并所有基本文件。

02

Hive SQL底层执行过程详细剖析（好文收藏）

Hive是什么？Hive 是数据仓库工具，再具体点就是一个 SQL 解析引擎，因为它即不负责存储数据，也不负责计算数据，只负责解析 SQL，记录元数据。

03

Spark SQL，DataFrame以及 Datasets 编程指南 - For 2.0

Spark SQL 是 Spark 用来处理结构化数据的一个模块。与基础的 Spark RDD API 不同，Spark SQL 提供了更多数据与要执行的计算的信息。在其实现中，会使用这些额外信息进行优化。可以使用 SQL 语句和 Dataset API 来与 Spark SQL 模块交互。无论你使用哪种语言或 API 来执行计算，都会使用相同的引擎。这让你可以选择你熟悉的语言（现支持 Scala、Java、R、Python）以及在不同场景下选择不同的方式来进行计算。

02

Spark性能优化调优

1、内存： spark的dirver和executor内存及对应spark作业参数涉及内存调优就三个参数：spark.driver.memory ，-executor-memory 和 spark.yarn.executor.memoryOverhead 2、并发：在 Spark 应用程序中，尽量避免不必要的 Shuffle 操作。例如，使用合适的转换操作（如 map、filter）来代替需要 Shuffle 的操作（如 reduceByKey）。这样可以减少数据的传输和磁盘读写，提高并发性能及 SQL脚本涉及并发优化就1个参数：spark.sql.shuffle.partitions 3、CPU：spark的executor的CPU核数和对应spark作业参数（不建议改）涉及内存调优就1个参数：-executor-cores

00

Spark 3.0 新特性之自适应查询与分区动态裁剪

Spark憋了一年半的大招后，发布了3.0版本，新特性主要与Spark SQL和Python相关。这也恰恰说明了大数据方向的两大核心：BI与AI。下面是本次发布的主要特性，包括性能、API、生态升级、数据源、SQL兼容、监控和调试等方面的升级。

03

读书 | Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

周末的任务是更新Learning Spark系列第三篇，以为自己写不完了，但为了改正拖延症，还是得完成给自己定的任务啊 = =。这三章主要讲Spark的运行过程（本地+集群），性能调优以及Spark SQL相关的知识，如果对Spark不熟的同学可以先看看之前总结的两篇文章： Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性第七章主要讲了Spark的运行架构以

06

Apache Kylin v2.5.0正式发布，开源分布式分析引擎

日前，Apache Kylin 社区宣布，Apache Kylin v2.5.0 正式发布。

05

Spark on Yarn年度知识整理

Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。

02

Spark常见错误问题汇总

一.SparkSQL相关在执行insert 语句时报错，堆栈信息为：FileSystem closed。常常出现在ThriftServer里面。原因：由于hadoop FileSystem.get 获得的FileSystem会从缓存加载，如果多线程一个线程closedFileSystem会导致该BUG 解决方法：hdfs存在不从缓存加载的解决方式，在hdfs-site.xml 配置 fs.hdfs.impl.disable.cache=true即可在执行Spark过程中抛出：Failed to big

01

Spark知识体系完整解读

Spark简介 Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴Scala函数式的编程思想，提供与Scala类似的编程接口 Sparkon Yarn

02

SparkSql官方文档中文翻译(java版本)

Spark SQL是Spark的一个组件，用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象，DataFrames可以充当分布式SQL查询引擎。

03

浅谈离线数据倾斜

在今年的敏捷团队建设中，我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢？由此我的Runner探索之旅开始了

03

数据湖YYDS！ Flink+IceBerg实时数据湖实践

互联网技术发展的当下，数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展，无论是实时计算还是离线计算、无论是数据仓库还是数据中台，都已经深入各大公司的各个业务。

02

数据湖YYDS！ Flink+IceBerg实时数据湖实践

互联网技术发展的当下，数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展，无论是实时计算还是离线计算、无论是数据仓库还是数据中台，都已经深入各大公司的各个业务。

01

Spark难点 | Join的实现原理

当前SparkSQL支持三种join算法：Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前两者归根到底都属于Hash Join，只不过载Hash Join之前需要先Shuffle还是先Broadcast。其实，Hash Join算法来自于传统数据库，而Shuffle和Broadcast是大数据在分布式情况下的概念，两者结合的产物。因此可以说，大数据的根就是传统数据库。Hash Join是内核。

05

Spark难点 | Join的实现原理

当前SparkSQL支持三种join算法：Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前两者归根到底都属于Hash Join，只不过载Hash Join之前需要先Shuffle还是先Broadcast。其实，Hash Join算法来自于传统数据库，而Shuffle和Broadcast是大数据在分布式情况下的概念，两者结合的产物。因此可以说，大数据的根就是传统数据库。Hash Join是内核。

02

查询时间降低60%！Apache Hudi数据布局黑科技了解下

Apache Hudi将流处理带到大数据，相比传统批处理效率高一个数量级，提供了更新鲜的数据。在数据湖/仓库中，需要在摄取速度和查询性能之间进行权衡，数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询，但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据，但如果把查询频繁的数据放在一起时，查询引擎的性能会更好，大多数系统都倾向于支持独立的优化来提高性能，以解决未优化的数据布局的限制。本博客介绍了一种称为Clustering[RFC-19]的服务，该服务可重新组织数据以提高查询性能，也不会影响摄取速度。

01

【Spark重点难点06】SparkSQL YYDS(中)！

在上节课中我们讲解了Spark SQL的来源，Spark DataFrame创建的方式以及常用的算子。这节课继续讲解Spark SQL中的Catalyst优化器和Tungsten，以及Spark SQL的Join策略选择。

01

干货 | 携程数据基础平台2.0建设，多机房架构下的演进

cxzl25，携程高级软件技术专家，关注数据领域生态建设，对分布式计算和存储、调度等方面有浓厚兴趣，Apache Kyuubi PMC Member，Apache Celeborn / ORC Committer。

01

每天一道大厂SQL题【Day11】微众银行真题实战(一)

大家好，我是Maynor。相信大家和我一样，都有一个大厂梦，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大数据岗面试中的经典SQL题，以每日1题的形式，带你过一遍热门SQL题并给出恰如其分的解答。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭