腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1280268

阅读量

316

订阅数

Hive/Spark/Flink增量查询Hudi最佳实践一网打尽

spark hive flink 数据最佳实践

我们在写数据时，可以配置同步Hive参数，生成对应的Hive表，用来查询Hudi表，具体来说，在写入过程中传递了两个由table name命名的Hive表。例如，如果table name = hudi_tbl，我们得到

王知无-import_bigdata

2023-09-06

7440

一篇文章搞懂 Spark 3.x 的 CacheManager

缓存 spark 规范化数据索引

CacheManager 是 Spark SQL 中内存缓存的管理者，在 Spark SQL 中提供对缓存查询结果的支持，并在执行后续查询时自动使用这些缓存结果。

王知无-import_bigdata

2023-04-07

6180

Flink1.16 SQL Gateway 迁移Hive SQL任务实战

hive spark https 网络安全 java

我们有数万个离线任务，主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务，当然也有PySpark、打Jar包的Spark和打Jar包的Flink任务这种高成本的任务【Java和Scala都有】。毕竟SQL上手门槛极低，是个人都能写几下并且跑起来，还可以很容易看到run成功的数据长得像不像。其实HQL任务的性能并不会好到哪里去，主要是SQL Boy便宜，无脑堆人天就可以线性提升开发速度。DataPhin的底层基本可以确认就是beeline -f包了一层，而它本身作为二级队列，并不是真正意义上的网关。

王知无-import_bigdata

2023-02-01

1K0

「Hudi系列」Hudi查询&写入&常见问题汇总

hive 大数据文件存储数据库 spark

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

王知无-import_bigdata

2022-06-05

5.5K0

Apache Hudi 0.11 版本重磅发布，新特性速览!

spark 打包 flink 大数据 hive

在 0.11.0 中，默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing，以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面，用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此，使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关，您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。

王知无-import_bigdata

2022-06-05

3.3K0

Hudi小文件问题处理和生产调优个人笔记

sql spark javascript 日志数据

Apache Hudi提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。

王知无-import_bigdata

2022-04-13

1.6K0

2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

spark 网络安全 https flink 大数据

整篇文章约2.5万字(不包含引用和连接内容)。如果这个文章对你有帮助，不要忘记「在看」「点赞」「收藏」。

王知无-import_bigdata

2022-03-11

1K0

「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

hive spark hadoop sql jar

hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径，同时hudi 重写了inputformat 和outpurtformat。因为hudi 在读的数据的时候会读元数据来决定我要加载那些parquet文件，而在写的时候会写入新的元数据信息到hdfs路径下。所以hive 要集成hudi 查询要把编译的jar 包放到HIVE-HOME/lib 下面。否则查询时找不到inputformat和outputformat的类。

王知无-import_bigdata

2022-03-11

2.1K0

你问我DataX是谁？对不起，我活在Apache SeaTunnel的时代！

apache spark flink yarn https

SeaTunnel正式通过世界顶级开源组织Apache软件基金会的投票决议，以全票通过的优秀表现正式成为Apache孵化器项目！

王知无-import_bigdata

2022-01-20

2.4K0

Spark3.0核心调优参数小总结

spark bash bash 指令 linux vr 视频解决方案

基础配置 spark.executor.memory 指定Executor memory,也就是Executor可用内存上限 spark.memory.offHeap.enabled 堆外内存启用开关 spark.memory.offHeap.size 指定堆外内存大小 spark.memory.fraction 堆内内存中，Spark缓存RDD和计算的比例 spark.memory.storageFraction Spark缓存RDD的内存占比，相应的执行内存比例为1 - spark.memory.st

王知无-import_bigdata

2021-12-28

1.6K0

【Spark重点难点08】Spark3.0中的AQE和DPP小总结

spark 数据库 sql

包括动态分区剪裁(Dynamic Partition Pruning)、自适应查询执行(Adaptive Query Execution)、加速器感知调度(Accelerator-aware Scheduling)、支持 Catalog 的数据源API（Data Source API with Catalog Supports）、SparkR 中的向量化（Vectorization in SparkR）、支持 Hadoop 3/JDK 11/Scala 2.12 等等。

王知无-import_bigdata

2021-12-22

2.3K0

【Spark重点难点07】SparkSQL YYDS(加餐)！

spark sql 数据库 java ide

Spark发展到今天，Spark SQL的方式已经是官方推荐的开发方式了。在今年的Spark 3.0大版本发布中，Spark SQL的优化占比将近50%；而像PySpark、Mllib 和 Streaming的优化占比都不超过10%，Graph的占比几乎可以忽略不计。

王知无-import_bigdata

2021-12-22

6720

【Spark重点难点06】SparkSQL YYDS(中)！

spark 大数据 nest 编程算法 sql

在上节课中我们讲解了Spark SQL的来源，Spark DataFrame创建的方式以及常用的算子。这节课继续讲解Spark SQL中的Catalyst优化器和Tungsten，以及Spark SQL的Join策略选择。

王知无-import_bigdata

2021-12-16

6400

【Spark重点难点】SparkSQL YYDS(上)！

sql spark https 网络安全 python

Spark 社区在 1.3 版本发布了 DataFrame。那么，相比 RDD，DataFrame 到底有何不同呢？

王知无-import_bigdata

2021-12-15

8920

【Spark重点难点】你的代码跑起来谁说了算？(内存管理)

spark 存储文件存储缓存 jvm

这节课我们要讲的是Spark中的【内存模型】，也就是决定我们Spark代码运行所需要的资源信息。

王知无-import_bigdata

2021-12-08

6260

【Spark重点难点】你的数据存在哪了?

spark vr 视频解决方案 hashmap 文件存储数据结构

在之前的课中我们讲了Spark的RDD以及整个Spark系统中的一些关键角色：《【Spark重点难点】你从未深入理解的RDD和关键角色》。

王知无-import_bigdata

2021-12-07

1.3K0

【Spark重点难点】你以为的Shuffle和真正的Shuffle

bash bash 指令大数据 spark 数据结构

上节课我们讲了DAGScheduler划分Stage的原理: DAGScheduler调度时会根据是否需要经过Shuffle过程将Job划分为多个Stage。

王知无-import_bigdata

2021-12-07

2.2K0

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

linux spark hive sql mapreduce

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

王知无-import_bigdata

2021-10-27

2.9K0

昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)

javascript vr 视频解决方案 spark 大数据存储

OK，我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢？

王知无-import_bigdata

2021-10-13

6330

昨天我面试了一个人

spark 任务调度编程算法

整体的感觉是，面试者对组件停留在会用层面，在一些简单的业务场景或者成熟的平台下开发完全没有问题，但是遇到难题恐怕难以解决。

王知无-import_bigdata

2021-09-22

3830

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态