大数据成神之路-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏成员

638

文章

1401756

阅读量

321

订阅数

Hive/Spark/Flink增量查询Hudi最佳实践一网打尽

spark hive flink 数据最佳实践

我们在写数据时，可以配置同步Hive参数，生成对应的Hive表，用来查询Hudi表，具体来说，在写入过程中传递了两个由table name命名的Hive表。例如，如果table name = hudi_tbl，我们得到

王知无-import_bigdata

2023-09-06

1K0

Flink1.16 SQL Gateway 迁移Hive SQL任务实战

hive spark https 网络安全 java

我们有数万个离线任务，主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务，当然也有PySpark、打Jar包的Spark和打Jar包的Flink任务这种高成本的任务【Java和Scala都有】。毕竟SQL上手门槛极低，是个人都能写几下并且跑起来，还可以很容易看到run成功的数据长得像不像。其实HQL任务的性能并不会好到哪里去，主要是SQL Boy便宜，无脑堆人天就可以线性提升开发速度。DataPhin的底层基本可以确认就是beeline -f包了一层，而它本身作为二级队列，并不是真正意义上的网关。

王知无-import_bigdata

2023-02-01

1.2K0

Flink1.16新特性图文解析

flink 大数据 hive 存储迁移

sql gateway这个功能超级强大，支持多租户，协议插件化，兼容hive生态，以后flink流批作业都可以通过sql gateway提交到集群了。

王知无-import_bigdata

2023-02-01

9540

Apache Hudi 使用文件聚类功能 (Clustering) 解决小文件过多的问题

windows flink 大数据 hive sql

本文详细阐述了在 “批处理后，流处理之前” 进行文件 Clustering 操作的方法。该方法可以将众多小文件合并成数量极少的大文件，从而防止过多小文件的产生。

王知无-import_bigdata

2022-11-11

1.2K0

「Hudi系列」Hudi查询&写入&常见问题汇总

hive 大数据文件存储数据库 spark

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

王知无-import_bigdata

2022-06-05

6.3K0

Apache Hudi 0.11 版本重磅发布，新特性速览!

spark 打包 flink 大数据 hive

在 0.11.0 中，默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing，以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面，用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此，使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关，您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。

王知无-import_bigdata

2022-06-05

3.4K0

Presto在字节跳动的内部实践与优化

hive 数据分析日志数据大数据 sql

在字节跳动内部，Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景，日查询量接近 100 万条。

王知无-import_bigdata

2022-06-05

1.5K0

基于Flink1.14 + Iceberg0.13构建实时数据湖实战

flink 大数据 hive 数据库 sql

Iceberg默认支持Hadoop Catalog。如果需要使用Hive Catalog，需要将flink-sql-connector-hive-3.1.2_2.12-1.14.3.jar放到Flink集群所有服务器的lib目录下，然后重启Flink

王知无-import_bigdata

2022-06-05

1.6K0

「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

hive spark hadoop sql jar

hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径，同时hudi 重写了inputformat 和outpurtformat。因为hudi 在读的数据的时候会读元数据来决定我要加载那些parquet文件，而在写的时候会写入新的元数据信息到hdfs路径下。所以hive 要集成hudi 查询要把编译的jar 包放到HIVE-HOME/lib 下面。否则查询时找不到inputformat和outputformat的类。

王知无-import_bigdata

2022-03-11

2.4K0

Atlas血缘分析在数据仓库中的实战案例

打包 jar xml hive sql

1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSARY词汇表 1.5 字段搜索 1.5.1查看表字段 1.5.2 追踪字段关系

王知无-import_bigdata

2022-03-11

3.3K0

基于Hive数据仓库的标签画像实战

数据库日志数据 sql hive 存储

建立用户画像首先需要建立数据仓库，用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具，依赖于HDFS存储数据，提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库，存储标签和用户特征库等相关数据。

王知无-import_bigdata

2021-11-30

9630

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

linux spark hive sql mapreduce

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

王知无-import_bigdata

2021-10-27

3.5K0

打造大数据平台底层计算存储引擎 | Apache孵化器迎来Linkis！

存储 jdbc hive flink 大数据

微众银行开源项目Linkis正式通过Apache软件基金会（ASF）的投票表决，全票通过进入ASF孵化器！

王知无-import_bigdata

2021-09-22

1.3K0

Flink重点难点：Flink Table&SQL必知必会(二)

sql flink 大数据 hive api

介绍了 Flink Table & SQL的一些核心概念，本部分将介绍 Flink 中窗口和函数。

王知无-import_bigdata

2021-09-22

1.9K0

在所有Spark模块中，我愿称SparkSQL为最强！

spark python hive api 批量计算

我们之前已经学习过了《我们在学习Spark的时候，到底在学习什么？》，这其中有一个关于SQL的重要模块：SparkSQL。

王知无-import_bigdata

2021-07-30

1.7K0

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

mapreduce spark hive ide sql

我在之前的硬刚系列《大数据方向另一个十年开启 |《硬刚系列》第一版完结》中写过一个《硬刚Hive | 4万字基础调优面试小总结》，这个小结里基本涵盖了你所看过的关于Hive的常见的知识和面试八股文。

王知无-import_bigdata

2021-07-30

6910

Presto原理&调优&面试&实战全面升级版

云数据库 SQL Server 任务调度 hive javascript sql

很久之前，曾经写过一篇《Presto在大数据领域的实践和探索》。文中详细讲解了Presto的原理和应用。

王知无-import_bigdata

2021-07-12

2.1K0

实时数据湖：Flink CDC流式写入Hudi

hadoop flink 大数据 spark hive

•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•Spark 2.4.5、Hadoop 3.1.3、Hive 3.1.2

王知无-import_bigdata

2021-07-12

2.5K0

硬刚Hive | 4万字基础调优面试小总结

云数据库 SQL Server hive sql 数据库大数据

Hive是基于Hadoop的数据仓库工具，可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理，提供了类似于SQL语言的查询语言–HiveQL，可通过HQL语句实现简单的MR统计，Hive将HQL语句转换成MR任务进行执行。

王知无-import_bigdata

2021-06-01

1.9K0

最新Hive/Hadoop高频面试点小集合

hive 文件存储数据库大数据数据处理

如果其中有一张表为小表，直接使用map端join的方式（map端加载小表）进行聚合。

王知无-import_bigdata

2021-04-21

1.1K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态