首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
635
文章
1280268
阅读量
316
订阅数
Hive/Spark/Flink增量查询Hudi最佳实践一网打尽
我们在写数据时,可以配置同步Hive参数,生成对应的Hive表,用来查询Hudi表,具体来说,在写入过程中传递了两个由table name命名的Hive表。例如,如果table name = hudi_tbl,我们得到
王知无-import_bigdata
2023-09-06
7440
一篇文章搞懂 Spark 3.x 的 CacheManager
CacheManager 是 Spark SQL 中内存缓存的管理者,在 Spark SQL 中提供对缓存查询结果的支持,并在执行后续查询时自动使用这些缓存结果。
王知无-import_bigdata
2023-04-07
6180
Flink1.16 SQL Gateway 迁移Hive SQL任务实战
我们有数万个离线任务,主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务,当然也有PySpark、打Jar包的Spark和打Jar包的Flink任务这种高成本的任务【Java和Scala都有】。毕竟SQL上手门槛极低,是个人都能写几下并且跑起来,还可以很容易看到run成功的数据长得像不像。其实HQL任务的性能并不会好到哪里去,主要是SQL Boy便宜,无脑堆人天就可以线性提升开发速度。DataPhin的底层基本可以确认就是beeline -f包了一层,而它本身作为二级队列,并不是真正意义上的网关。
王知无-import_bigdata
2023-02-01
1K0
「Hudi系列」Hudi查询&写入&常见问题汇总
2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成
王知无-import_bigdata
2022-06-05
5.5K0
Apache Hudi 0.11 版本重磅发布,新特性速览!
在 0.11.0 中,默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing,以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面,用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此,使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关,您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。
王知无-import_bigdata
2022-06-05
3.3K0
Hudi小文件问题处理和生产调优个人笔记
Apache Hudi提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。
王知无-import_bigdata
2022-04-13
1.6K0
2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)
整篇文章约2.5万字(不包含引用和连接内容)。如果这个文章对你有帮助,不要忘记 「在看」「点赞」「收藏」 。
王知无-import_bigdata
2022-03-11
1K0
「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成
hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径,同时hudi 重写了inputformat 和outpurtformat。因为hudi 在读的数据的时候会读元数据来决定我要加载那些parquet文件,而在写的时候会写入新的元数据信息到hdfs路径下。所以hive 要集成hudi 查询要把编译的jar 包放到HIVE-HOME/lib 下面。否则查询时找不到inputformat和outputformat的类。
王知无-import_bigdata
2022-03-11
2.1K0
你问我DataX是谁?对不起,我活在Apache SeaTunnel的时代!
SeaTunnel正式通过世界顶级开源组织Apache软件基金会的投票决议,以全票通过的优秀表现正式成为Apache孵化器项目!
王知无-import_bigdata
2022-01-20
2.4K0
Spark3.0核心调优参数小总结
基础配置 spark.executor.memory 指定Executor memory,也就是Executor可用内存上限 spark.memory.offHeap.enabled 堆外内存启用开关 spark.memory.offHeap.size 指定堆外内存大小 spark.memory.fraction 堆内内存中,Spark缓存RDD和计算的比例 spark.memory.storageFraction Spark缓存RDD的内存占比,相应的执行内存比例为1 - spark.memory.st
王知无-import_bigdata
2021-12-28
1.6K0
【Spark重点难点08】Spark3.0中的AQE和DPP小总结
包括动态分区剪裁(Dynamic Partition Pruning)、自适应查询执行(Adaptive Query Execution)、加速器感知调度(Accelerator-aware Scheduling)、支持 Catalog 的数据源API(Data Source API with Catalog Supports)、SparkR 中的向量化(Vectorization in SparkR)、支持 Hadoop 3/JDK 11/Scala 2.12 等等。
王知无-import_bigdata
2021-12-22
2.3K0
【Spark重点难点07】SparkSQL YYDS(加餐)!
Spark发展到今天,Spark SQL的方式已经是官方推荐的开发方式了。在今年的Spark 3.0大版本发布中,Spark SQL的优化占比将近50%;而像PySpark、Mllib 和 Streaming的优化占比都不超过10%,Graph的占比几乎可以忽略不计。
王知无-import_bigdata
2021-12-22
6720
【Spark重点难点06】SparkSQL YYDS(中)!
在上节课中我们讲解了Spark SQL的来源,Spark DataFrame创建的方式以及常用的算子。这节课继续讲解Spark SQL中的Catalyst优化器和Tungsten,以及Spark SQL的Join策略选择。
王知无-import_bigdata
2021-12-16
6400
【Spark重点难点】SparkSQL YYDS(上)!
Spark 社区在 1.3 版本发布了 DataFrame。那么,相比 RDD,DataFrame 到底有何不同呢?
王知无-import_bigdata
2021-12-15
8920
【Spark重点难点】你的代码跑起来谁说了算?(内存管理)
这节课我们要讲的是Spark中的 【内存模型】,也就是决定我们Spark代码运行所需要的资源信息。
王知无-import_bigdata
2021-12-08
6260
【Spark重点难点】你的数据存在哪了?
在之前的课中我们讲了Spark的RDD以及整个Spark系统中的一些关键角色:《【Spark重点难点】你从未深入理解的RDD和关键角色》。
王知无-import_bigdata
2021-12-07
1.3K0
【Spark重点难点】你以为的Shuffle和真正的Shuffle
上节课我们讲了DAGScheduler划分Stage的原理: DAGScheduler调度时会根据是否需要经过Shuffle过程将Job划分为多个Stage。
王知无-import_bigdata
2021-12-07
2.2K0
Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎
Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更多的计算引擎,计算速度大大提升。
王知无-import_bigdata
2021-10-27
2.9K0
昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)
OK,我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢?
王知无-import_bigdata
2021-10-13
6330
昨天我面试了一个人
整体的感觉是,面试者对组件停留在会用层面,在一些简单的业务场景或者成熟的平台下开发完全没有问题,但是遇到难题恐怕难以解决。
王知无-import_bigdata
2021-09-22
3830
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档